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(57) Abstract 



The invention makes it possible to synthesize any acoustic data by concatenation of individual audiosegment zones, the instant at which 
the concatenation of two successive audiosegment zones is carried out being chosen in accordance with properties of said audiosegments. 
In this manner synthesized acoustic data can be generated which after conversion into acoustic signals do not differ from the coiresponding 
naturally produced acoustic signals. The invention notably makes it possible for synthesized speech data to be generated taking into account 
coarticulatory effects, by concatenation of individual speech-audiosegments. The speech data provided in this way can be converted into 
speech signals which are indistinguishable from natural spoken speech. 



(57) Zusammenfassung 



Die Erfindung ennoglicht es, beliebige akustische Daten durch eine Konkatenation einzelner Audiosegmentbereiche zu syntheiisieien, 
wobei die Momente, zu denen die jeweilige Konkatenation zweier aufeinander folgender Audiosegmentbereiche erfolgt, in Abhangiokeit 
von Eigenschaften der Audiosegmente festgelegt werden. Auf diese Weise k6nnen synthetisierte akustische Datcn erzeugi werden!^die 
sich nach einer Umwandlung in akustische Signale nicht von entsprechenden naturlich erzeugten akustischen Signalen unterscheiden. 
Insbesondere erlaubt es die Erfindung, synthetisierte Sprachdaten unter Berucksichtigung koartikulatorischer Effekte durch Konkatenation 
einzelner Sprachaudiosegmente zu erzeugen. Die so zur Verfugung gestellten Sprachdaten konnen in Sprachsignale umgewandelt werden. 
die von einer naturlich gesprochenen Sprache nicht zuunterscheiden sind. 
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Verfahren und Vorrichtunaen zur koartikulationsoerechten 
Konkatenation von Audioseamenten 

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Konkatenation von Audio- 
segmenten zur Erzeugung synthetisierter akustischer Daten, insbesondere synthetisier- 
ter Sprache. Des weiteren betrifft die Erfindung synthetisierte Sprachsignale. die durch 
die erfindungsgemSlie koartikulationsgerechte Konkatenation von Sprachsegmenten 
erzeugt wurden. sowie einen DatentrSger, der ein Computerprogramm zur erfindungs- 
gemalien Erzeugung von synthetisierten akustischen Daten, insbesondere syn- 
thetisierter Sprache, enthalt. 

Zusatzlich betrifft die Erfindung einen Datenspeicher, der Audiosegmente enthalt, die zur 
erfindungsgemafien koartikulationsgerechten Konkatenation geeignet sind, und einen 
Tontrager, der erfindungsgemali synthetisierte akustische Daten enthalt. 

Es ist zu betonen. dafi sowohl der im folgenden dargestellte Stand der Technik als auch 
die vorliegenden Erfindung den gesamten Bereich der Synthese von akustischen Daten 
durch Konkatenation einzelner, auf beliebige Art und Weise erhaltene AudiQsegmente 
betrifft. Aber um die Diskussion des Standes der Technik sowie die Beschreibung der 
vorliegenden Erfindung zu vereinfachen, beziehen sich die folgenden AusfuHaingen 
speziell auf synthetisierte Sprachdaten durch Konkatenation einzelner Sprachsegmente. 

In den letzten Jahren hat sich im Bereich der Sprachsynthese der datenbasierte Ansatz 
gegenuber dem regelbasierten Ansatz durchgesetzt und ist in verschiedenen Verfahren 
und Systemen zur Sprachsynthese zu finden. Obv^^ohl der regelbasierte Ansatz prinzipiell 
eine bessere Sprachsynthese ermSglicht, ist es fiir dessen Umsetzung notwendig, das 
gesamte zur Spracherzeugung notv/endige Wissen explizitzu formulleren, d.h. die zu 
synthetisierende Sprache formal zu modellieren. Da die bekannten Sprachmodellierun- 
gen Vereinfachung der zu synthetisierenden Sprache aufweisen, ist die SprachqualitSt 
der so erzeugten Sprache nicht ausreichend. 

Daherwird in zunehmenden Malie eine datenbasierte Sprachsynthese durchgefuhrt, be! 
der aus einer einzelne Sprachsegmente aufweisenden Datenbasis entsprechende Seg- 
mente ausgewahit und miteinander verknupft (konkateniert) werden. Die Sprachqualitat 
hangt hierbei in erster Linie von der Zahl und Art der verfCigbaren Sprachsegmente ab, 
denn es kann nur Sprache synthetisiert werden, die durch Sprachsegmente in der Da- 
tenbasis wiedergeben ist. Um die Zahl der vorzusehenden Sprachsegmente zu minimie- 
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ren und dennoch eine synthetisierte Sprache hoher Qualitat zu erzeugen. sind verschie- 
den Verfahren bekannt, die eine Verknupfung (Konkatenation) der Sprachsegmente 
nach komplexen Regein durchfuhren. 

Unter Verwendung solcher Verfahren bzw. entsprechender Vorrichtungen kann ein In- 
ventar, d.h. eine die Sprachaudiosegmente umfassende Datenb^sis, verwendet werden, 
das vollstandig und handhabbar ist. Ein Inventar ist vollstandig, wenn damit jede Lautfol- 
ge der 2U synthetisierenden Sprache erzeugt werden kann, und ist handhabbar, wenn 
die Zahl und Art der Daten des Inventars mit den technisch verfugbaren Mittein in einer 
gewunschten Weise verarbeitet werden kann. Daruber hinaus mul3 ein solches Verfah- 
ren gewahrieisten, daQ> die Konkatenation der einzelnen Inventarelemente eine syntheti- 
sierte Sprache erzeugt, die sich von einer naturlich gesprochenen Sprache moglichst 
; werjip unterscheidet. Hierfur muQ> eine synthetisierte Sprache flussig sein und die glei- 
chen artikuiatorischen Effekte einer naturlichen Sprache aufweisen, Hier kommen den 
sogenannten koartikulatorischen Effekten, d.h. der gegenseitigen Beeinflussung von 
.Sprachlauten.veine besondere Bedeutung zu. Daher sollten die Inventarelemente so be- 
schaffen sein,. das sie die Koartikulation einzelner aufeinanderfolgender Sprachlaute 
berOcksiclitigen. Des weiteren sollte ein Verfahren zu Konkatenation der Inventarele- 
mente,- die Elemente unter Berucksichtigung der Koartikulation einzeiner aufeinanderfol- 
gender Sprachlaute sowie der ubergeordneten Koartikulation mehrerer aufeinanderfol- 
gender Sprachlaute, auch uber Wort- und Satzgrenzen hinweg, verketten. 

Vor der Darstellung des Standes der Technik werden im folgenden einige zum besseren 
Verstandnis notwendige Begriffe aus dem Bereich der Sprachsynthese eriautert: 

- Ein Laut ist eine Klasse von beliebigen Schallereignissen (Gerausche, Klange, Tone 
usw). Die Schallereignisse werden gemafi eines Klassifikationsschemas in Lautklassen 
eingeteilt. Ein Schallereigniss gehort zu einem Laut, wenn hinsichtlich der zur Klassifika- 
tion venA/endeten Parameter (z.B. Spektrum, Tonhohe, Lautstarke, Brust- oder Kopf- 
stimme. Koartikulation, Resonanzraume, Emotion usw.) die Werte des Schallereignis 
innerhalb der fur den Laut definierten Wertebereiche liegen. 

Das Klassifikationsschema fur Laute hangt von der Art der Anwendung ab. Fur Sprach- 
laute (= Phone) wird in der Regel die IPA-Klassifikation venvendet. Die hier verwendete 
Definition des Begriffes Laut ist Jedoch nicht darauf beschrankt, sondern es lassen sich 
beliebige andere Parameter verwendet. Wird z.B. zusatzlich zu der IPA-Klassifikation 
noch die Tonhohe oder der emotionale Ausdruck als Parameter in die Klassifikation mit 
einbezogen. so werden zwei 'a*-Laute mit unterschiedlicher Tonhohe oder mit unter- 
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schiedlichem emotionalen Ausdruck zu unterschiedlichen Lauten im Sinne der Definition. 
Laute konnen aber aucli die Tone eines Musikinstrumentes, etwa einer Geige. auf den 
unterschiedlichen Tonhohen in den unterschiedlichen Spielweisen (Auf- und Abstrich, 
Detache, Spiccato, Marcato. Pizzicato, col Legno etc.) sein. Laute konnen ebenso Hun- 
5 degebell oder das Quietschen einer Autoture sein. 

Laute konnen durch Audiosegmente, die entsprechende akustische Daten enthalten, 

wiedergegeben werden; 

10 In der auf die Definitionen folgenden Beschreibung der Erfindung kann immer der Begriff 
Phon durch den Begriff Laut im Sinne der vorigen Definition und der Begriff Phonem 
durch den Begriff Lautzeichen ersetzt werden. (Dies gilt auch umgekehrt, da Phone ge- 
mali der IPA-Klassifikation eingeteilte Laute sind.) 

15 - Ein statischer Laut hat Bereiche die ahnlich zu vorhergehenden oder nachfoigenden 
Bereichen des statischen Lauts sind. Die Ahnlichkeit muR nicht unbedingt eine exakte 
Entsprechung wie bei den Perioden eines Sinustones sein, sondern ist analog der Ahn- 
lichkeit, die zwischen den Bereichen der unten definierten statischen Phone herrscht. 

20 - Ein dvnamischer Laut hat keine Bereiche, die vorhergenden Oder nachfoigenden Berei- 
chen des dynannischen Lautes ahnein, etwa das Schallereignis einer Explosion Oder ein 
dynamisches Phon. 

- Ein Phon ist ein von den Sprachorganen erzeugter Laut (ein Sprachlaut). Die Phbne 
25 werden in statische und dynamische Phone unterteilt. 

- den statischen Phonen zahlen Vokale, Diphtonge, Nasale, Laterale. VIbranten und 
Frikative. 

30 - Zu den dvnamisch en Phonen zahlen Plosive. Affrikate, Glottalstops und geschlagene 
Laute. 

- Ein Phonem ist die formale Beschreibung eines Phons, wobei i. allg. die formale Be- 
schreibung durch Lautschriftzeichen erfolgt. 

35 

- Die Koartikulation bezeichnet das Phanomen, daB ein Laut. also auch ein Phon, durch 
vorgelagerte und nachgelagerte Laute bzw. Phone beeinfluBt wird, wobei die Koartikula- 
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tion sowohl zwischen unmittelbar benachbarten Lauten/Phonen auftritt, aber sich auch 
als ubergeordnete Koartikulation uber eine Folge mehrerer Laute/Phone erstrecken kann 
(Beispielsweise bei einer Lippenrundung). 

Daher kann ein Laut bzw, Phon in drei Bereiche unterteilt werden (siehe auch Figur 1b): 

- Der Anfanas-K oartikulationsbereich umfalit den Bereich vom Beginn des Lautes/Phons 
bis zum Ende der Koartikulation aufgrund eines vorgelagerrten Lautes/Phons. 

- Per Soloartikulationsbereich. ist der Bereich des Lautes/Phons, der nicht durch einen 
vor- Oder nachgelagerten Laut bzw. ein vor- oder nachgelagertes Phon beeinfluUt ist. 

" - De^End-Koartikulationsbereich umfaGt den Bereich vom Beginn der Koartikulation auf- 
grun^ eines nachgelagerten Lautes/Phons bis zum Ende des Lautes/Phons. 

- Per Koartikulationsbereich umfaBt einen End-Koartikulationsbereich und den benach- 
barten Anfang^rKoartikulationsbereich des benachbarten Lautes/Phons. 

- Ein Polvphon ist eine Folge von Phonen. 

- Pie Elemente eines Inventars sind in kodierter Form gespeicherte Audioseamente . die 
Laute, Teile von Lauten, Lautfolgen Oder Teile von Lautfolgen, bzw. Phone, Teile von 
Phonen, Polyphone oder Teile von Polyphonen wiedergeben. Zur besseren Verstandnis 
des moglichen Aufbau eines Audiosegmentes/lnventarelementes sei hier auf die Figur 
2a, die ein herkSmmliches Audiosegment zeigt, und die Figuren 2b-21 ven«/iesen, in de- 
nen erfindungsgemaBe Audiosegmente gezeigt sind. Erganzend ist zu eoA^ahnen, daS 
Audiosegmente auch aus kleineren oder groSeren Audiosegmenten gebildet werden 
konnen, die in dem inventar oder einer Patenbank enthalten sind. Des weiteren konnen 
Audiosegmente auch in einer transformierten Form (z.B. einer fouriertransfonnierten 
Form) in dem Inventar oder einer Patenbank vorllegen. Audiosegmente fur das vorlie- 
gende Verfahren konnen auch aus einem vorgelagerten Syntheseschritt (der nicht Tell 
des Verfahrens ist) stammen. Audiosegmente enthalten wenigstens einen Teil eines 
Anfangs-Koartikulationsbereiches, eines Soloartikulationsbereiches und/oder eines End- 
Koartikulationsbereiches. Anstelle von Audiosegmenten konnen auch Bereiche von Au- 
diosegmenten verwendet werden. 

- Unter Konkatenation versteht man das Aneinanderfijgen zweier Audiosegmente. 
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- Der Konkatenationsmoment ist der Zeitpunkt, zu dem zwei Audiosegmente aneinan- 
dergefugt werden. 

Die Konkatenation kann auf verschiedene Arten erfolgen, z.B. mit einem Crossfade Oder 
einem Hardfade (siehe auch Figuren 3a-3e): 

- Bei einem Crossfade werden ein zeitlich hinterer Bereich eines ersten Audiosegment- 
bereiches sowie ein zeitlich vorderer Bereich eines zweiten Audiosegmentbereiches mit 
geeigneten Ubergangsfunktionen bearbeitet, und danach werden diese beiden Bereiche 
uberlappend so addiert, dafi maximal der zeitlich kurzere der beiden Bereichen von dem 
zeitiich langeren der beiden Bereiche vollstandig uberlappt wird. 

- Bei einem Hardfade wird ein zeitiich hinterer Bereich eines ersten Audiosegmentes und 
ein zeitiich vorderer Bereich eines zweiten Audiosegmentes mit geeigneten Uber- 
gangsfunktionen bearbeitet, wobei diese beiden Audiosegmente so aneinandergefugt 
werden, daB sich der hintere Bereich des ersten Audiosegmentes und der vordere Be- 
reich des zweiten Audiosegmentes nicht uberlappen. 

Der Koartikulationsbereich macht sich vorallem dadurch bemerkbar. daS eine Konka- 
tenation darin mit Unstetigkeiten (z.B. SpektralsprCingen) verbunden ist. 

Erganzend sei zu erwahnen, daft streng genommen ein Hardfade einen Grenzfaireines 
Crossfades darstellt, bei dem eine Uberlappung eines zeitiich hinteren Bereiches eines 
ersten Audiosegmentes und eines zeitiich vorderen Bereiches eines zweiten Audioseg- 
mentes eine Lange Null hat. Dies erlaubt es in bestimmten. z.B. aulierst zeitkritischen 
Anwendungen einen Crossfade durch einen Hardfade zu ersetzen, wobei eine solche 
Vorgehensweise genau abzuwagen ist, da diese zu deutlichen QualitatseinbuBen bei der 
Konkatenation von Audiosegmenten fuhrt, die eigentlich durch einen Crossfade zu kon- 
katenieren sind. 

- Unter Prosodie versteht man die Veranderungen der Sprachfrequenz und des Sprachr- 
hythmus, die bei gesprochenen Worten bzw. Satzen auftreten. Die Berucksichtigung 
solcher prosodtscher Informationen ist bei der Sprachsynthese notwendig. um eine na- 
turiiche Wort- bzw. Satzmelodie zu erzeugen. 
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Aus wo 95/30193 ist ein Verfahren und eine Vorrichtung zur Umwandlung von Text in 
horbare Sprachsignale unter Verwendung eines neuronalen Netzwerkes bekannt Hierfur 
wird der in Sprache umzuwandelnde Text mit einer Konvertiereinheit in eine Folge von 
Phonemen umgewandelt, wobei zusatzlich Informationen uber die syntaktischen Gren- 

5 zen des Textes und die Betonung der einzelnen syntaktischen Komponenten des Textes 
erzeugt werden. Diese werden zusammen mit den Phonemen an^eine Einrichtung wei- 
tergeleitet, die regelbasiert die Dauer der Aussprache der einzelnen Phoneme bestimmt. 
Ein Prpzessor erzeugt aus jedem einzelnen Phonem in V^rbindung mit den entspre- 
^ chenden syntaktischen und zeitlichen Information eine geeignet Eingabe fur das neuro- 

10 nale Netzwerk, wobei diese Eingabe fur das neuronaie Netz auch die entsprechenden 
prosodischen Informationen fur die gesamte Phonemfolge umfaat Das neuronaie Netz 
wahit aus den verfugbaren Audiosegmenten nun die aus, die die eingegebenen Phone- 
me 3jTi besten wiedergeben, und verkettet diese Audiosegmente entsprechend, Bei die- 
ser ^^erkettung. werden die einzelnen Audiosegmente in ihrer Dauer, Gesamtamplitude 

15 und Frequenz an vor- und nachgelagerte Audiosegmente unter Berucksichtigung der 
prosodischen Informationen der zu synthetisierenden Sprache angepalit und zeitlich 
aufeinanderfolgend miteinander verbunden. Eine Veranderung einzelner Bereiche der 
Audiosegmente ist hier nicht beschrieben. 

20 Zur Erzeugung der fur dieses Verfahren erforderlichen Audiosegmente ist das neuronaie 
Netzwerk zuerst zu trainieren, indem naturlich gesprochene Sprache in Phone Oder 
Phonfolgen unterteilt wird und diesen Phonen oder Phonfolgen entsprechende Phonem 
Oder Phonemfolgen in Form von Audiosegmenten zugeordnet werden. Da dieses Ver- 
fahren nur eine Veranderung von einzelnen Audiosegmenten, aber keine Verandemng 

25 einzelner Bereiche eines Audiosegmentes vorsieht, rnuli das neuronaie Netzwerk mit 
mbgiichst vielen verschiedenen Phonen Oder Phonfolgen trainiert werden, urn beiiebige 
Texte in synthetisierte naturlich klingende Sprache umzuwandeln. Dies kann sich je nach 
Anwendungsfall sehr aufwendig gestalten, Auf der anderen Seite kann ein unzureichen- 
der TrainingsprozeS des neuronalen Netzes die Quaiitat der zu synthetisierenden Spra- 

30 Che negativ beeinflussen. Des weiteren ist es bei dem hier beschriebene Verfahren nicht 
moglich, den Konkatenationsmoment der einzelnen Audiosegmente in Abhangigkeit vor- 
gelagerterodernachgelagerter Audiosegmente zu bestimmen, um so eine koartikulati- 
onsgerechte Konkatenation durchzufuhren. 

35 In US-5,524,172 ist eine Vomchtung zur Erzeugung synthetisierter Sprache beschrieben, 
die das sogenannte Diphonverfahren nutzt. Hier wird ein Text, der in synthetisierte Spra- 
che umgewandelt werden soli, in Phonemfolgen unterteilt, wobei jeder Phonemfolge ent- 
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sprechende prosodische Informationen zugeordnet werden. Aus einer Datenbank, die 
Audiosegmente in Form von Diphonen enthalt, werden fur jedes Phonem der Folge zwei 
das Phonem wiedergebende Diphone ausgewahit und unter Berucksichtigung der ent- 
sprechenden prosodischen Informationen konkateniert. Bei der Konkatenation werden 
5 die beiden Diphone jeweils mit Hilfe eines geeigneten Filters gewichtet und die Dauer 
und Tonhohe beider Diphone so verandert, daft bei der Verkettung der Diphone eine 
synthetisierte Phonfolge erzeugt wird, deren Dauer und Tonhohe der Dauer und Tonho- 
he der gewunschten Phonemfolge entspricht. Bei der Konkatenation werden die einzel- 
nen Diphone so addiert, daft sich ein zeitiich hinterer Bereich eines ersten Diphones und 

10 ein zeitiich vorderer Bereich eines zweiten Diphones Ciberlappen, wobei der Konkatena- 
tionsmoment generell im Bereich stationaren Bereiche der einzelnen Diphone liegt (siehe 
Figur 2a). Da eine Variation des Konkatenationsmomentes unter Berucksichtigung der 
Koartikulation aufeinanderfolgender Audiosegmente (Diphone) hier nicht vorgesehen ist, 
kann die Qualitat (Naturiichkeit und Verstandlichkeit) einer so synthetisierten Sprache 

15 negativ beeinfluftt werden. 

Eine Weiterentwicklung des zuvor diskutierten Verfahrens ist in EP-0,813,184 A1 zu fin- 
den. Auch hier wird ein in synthetisierte Sprache umzuwandelnder Text in einzelne Pho- 
neme Oder Phonemfolgen unterteiit und aus einer Datenbank entsprechende Audioseg- 

20 mente ausgewahit und konkateniert. Urn eine Verbesserung der synthetisierten Sprache 
zu erzielen. sind bei diesem Verfahren zwei Ansatze, die sich vom bisher diskutierten 
Stand der Technik unterschelden, umgesetzt worden. Unter Verwendung eines GlSt- 
tungsfilters. der die tieferfrequenten harmonischen Frequenzanteile eines vorgelagerten 
und eines nachgelagerten Audiosegments berucksichtigt, soli der Obergang von dem 

25 vorgelagerten Audiosegment zu dem nachgelagerten Audiosegment optimiert werden, 
indem ein zeitiich hinterer Bereich des vorgelagerten Audiosegments und ein zeitiich 
vorderer Bereich des nachgelagerten Audiosegments im Frequenzbereich aufeinander 
abgestimmt werden. Des weiteren stellt die Datenbank Audiosegmente zur Verfiigung, 
die sich leicht unterschelden, aber zur Synthetisierung desselben Phonems geeignet 

30 sind. Auf diese Weise soil die naturliche Variation der Sprache nachgebildet werden. urn 
eine hohere Qualitat der synthetisierten Sprache zu erreichen. Sowohl die VenA^endung 
des Glattungsfilter als auch die Auswahl aus einer Menge unterschiedlicher Audioseg- 
mente zur Realisierung eines Phonems erfordert bei einer Umsetzung dieses Verfahre- 
nes eine hohe Rechenleistung der verwendeten Systemkomponenten. Aufterdem steigt 

}5 der Umfang der Datenbank aufgrund der erhohten Zahl der vorgesehenen Audioseg- 
mente. Des weiteren ist auch bei diesem Verfahren eine koartikulationsabhangige Wahl 
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des Konkatenationsmoments einzelner Audiosegmente nicht vorgesehen, wodurch die 
Qualitat der synthetisierten Sprache reduziert werden kann. 

DE 693 18 209 T2 beschaftigt sich mit Formantsynthese. Gemali diesem Dokument 
5 werden zwei mehrstimmige Laute unter Verwendung eines Interpoiationsmechanismus 
miteinander verbunden, der auf ein letztes Phonem eines vorgel^gerten Lauts und auf 
ein erstes Phonem eines nachgelagerten Lauts angewendet wird, wobei die zwei Pho- 
neme der beiden Laute gleich sind und bei den verbundenen Lauten zu einem Phonem 
uberlagert werden. Bei der Uberlagerung werden die die zwei Phoneme beschreibenden 

10 Kurven jeweils mit einer Gewichtungsfunktion gewichtet. Die Gewichtungsfunktion wird 
bei jedem Phonem in einem Bereich angewendet, der unmittelbar nach dem Beginn des 
Phonems beginnt und unmittelbar vor dem Ende des Phonems endet. Somit entspre- 
/ chef)^bei der hierbeschriebenen Konkatenation von Lauten die verwendeten Bereiche 
^?f{'?.^P"®"^^» die den Ubergang zwischen den Lauten bilden, im wesentlichen den je- 

15 weiligen gesamten Phonemen. Das heilit. daS die zur Konkatenation verwendeten Teile 
der Phoneme stets alle drei Bereiche, namlich den jeweiligen Anfangs-Koartikulations- 
bereich, Soloartikulationsbereich und End-Koartikulationsbereich umfassen. Mithin lehrt 
D1 eine rfahrensweise wie die Ubergange zwischen zwei Lauten zu glatten sind. 

20 Des weiteren wird gemali diesem Dokument der Moment der Konkatenation zweier 

Laute so festgelegt daS sich das letzte Phonem in dem vorgelagerten Laut und das er- 
ste Phonem in dem nachgelagerten Laut vollstandig uberlappen. ^ 

Grundsatzlich ist festzustellen, dali DE 689 15 353 T2 eine Verbesserung der Tonquaii- 
25 tat erreichen will indem eine Vorgehensweise angegeben wird, wie der Ubergang zwi- 
schen zwei benachbarten Abtastwerten zu gestalten ist Dies ist insbesondere bei nied- 
rigen Abtastraten relevant 

Bei der in diesem Dokument beschriebenen Sprachsynthese werden Wellenformen ver- 
30 wendet, die zu konkatenierende Laute wiedergeben. Bei Wellenformen fur vorgelagerte 
Laute wird jeweils ein entsprechender Endabtastwert und ein zugeordneter Nulldurch- 
gangspunkt bestimmt, wahrend bei Wellenformen fur nachgeiagerte Laute jeweils ein 
erster oberer Abtastwert und ein zugeordneter Nulldurchgangspunkt bestimmt wird. In 
Abhangigkeit dieser bestimmten Abtastwerte und der zugeordneten Nulldurchgangs- 
35 punkte werden Laute auf maximal vier verschiedene Arten miteinander verbunden. Die 
Anzahl der Verbindungsarten wird auf zwei reduziert, wenn die Wellenformen unter Ver- 
wendung des Nyquist-Theorems erzeugt werden. In DE 689 15 353 12 ist beschrieben. 
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6aQ> sich der verwendete Bereich der Wellenformen zwischen dem letzten Abtastwert der 
vorgelagerten Wellenform und dem ersten Abtastwert der nachgelagerten Wellenform 
erstreckt, Eine Variation der Dauer der verwendeten Bereiche in Abhangigkeit der zu 
konkatenierenden Wellenformen, wie dies bei der Erfindung der Fall ist, ist in D1 nicht 
5 beschrieben. 

Zusammenfassend ist zu sagen. daa es der Stand der Technik zwar erlaubt, beliebige 
Phonemfolgen zu synthetisieren, aber die so synthetisierten Phonemfolgen haben keine 
authentische Sprachqualitat. Eine synthetisierte Phonemfolge hat eine authentische 
10 Sprachqualitat, wenn sie von der gleichen Phonemfolge, die von einem realen Sprecher 
gesprochen wurde. durch einen Horer nicht unterschieden v^erden kann. 

Es sind auch Verfahren bekannt, die ein Inventar benutzen, das vollstandige Worte 
und/oder Satze in authentischer Sprachqualitat als Inventarelemente enthalt Diese Ele- 
15 mente werden zur Sprachsynthese in einer gewunschten Reihenfolge hintereinander 

gesetzt, wobei die Moglichkeiten unterschiedliche Sprachsequenzen in hohem Ma(ie von 
dem Umfang eines solchen Inventars limitiert werden. Die Synthese beliebiger Phonem- 
folgen ist mit diesen Verfahren nicht moglich. 

20 Daher ist es eine Aufgabe der vorliegenden Erfindung ein Verfahren und eine entspre- 
chende Vorrichtung zur Verfugung zu stellen, die die Probleme des Standes der Technik 
beseitigen und die Erzeugung synthetisierter akustischer Daten, insbesondere synthe- 
tisierter Sprachdaten, ermoglichen, die sich fur einen Horer nicht von entsprechenden 
naturlichen akustischen Daten, insbesondere naturlich gesprochener Sprache, unter- 

25 scheiden. Die mit der Erfindung synthetisierten akustischen Daten, insbesondere syn- 
thetisierte Sprachdaten sollen eine authentische akustische Qualitat, insbesondere eine 
authentische Sprachqualitat aufweisen. 

Zu Losung dieser Aufgabe sieht die Erfindung ein Verfahren gemaR Anspruch 1. eine 
30 Vorrichtung gemalS Anspruch 14, synthetisierte Sprachsignale gemaU Anspruch 28, ei- 
nen Datentrager gemad Anspnjch 39, einen Datenspeicher gemaS Anspruch 51, sowie 
einen Tontrager gemafi Anspruch 60 vor. Somit ermoglicht es die Erfindung, syntheti- 
sierte akustische Daten zu erzeugen. die eine Folge von Lauten wiedergeben, indem bei 
der Konkatenation von Audiosegmentbereichen der Moment der Konkatenation zweier 
35 Audiosegmentbereiche in Abhangigkeit von Eigenschaften der zu verknupfenden Audio- 
segmentbereiche, insbesondere der die beiden Audiosegmentbereiche betreffenden 
Koartikutationseffekte bestimmt. Der Konkatenationsmoment wird gemali der vorliegen- 
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den Erfindung vorzugsweise in der Umgebung der Grenzen des Solo- 
Artikulationsbereiches gewahlt. Auf diese Weise wird eine Sprachqualitat erreicht, die mit 
dem Stand der Technik nicht erzielbar ist. Dabei ist die erforderliche Rechenleistung 
nicht hoher ais beim Stand der Technik. 

Urn bei der Synthase akustischer Daten die Variationen nachzubliden, die bei entspre- 
chenden naturlichen akustischen Daten zu finden sind, sieht die Erfindung eine unter- 
schiedliche Auswahl der Audiosegmentbereiche sowie unterschiedliche Arten der koarti- 
kulationsgerechten Konkatenation vor. So wird ein hoheres Maa an Naturiichkeit der 
synthetisierten akustischen Daten erzielt, wenn ein zeltlich nachgelagerter Audioseg- 
mentbereich, dessen Anfang einen statischen Laut wiedergibt, mit einem zeitlich vorge- 
lagerten Audiosegmentbereich mittels eines Crossfades verbunden wird, bzw. wenn ein 
zei^iph nachgelagerter Audiosegmentbereich, dessen Anfang einen dynamischen Laut 
wie(;|e,rgibt, mjt einem zeitlich vorgelagerten Audiosegmentbereich mittels eines Hardfa- 
des; verbunden wird. Des weiteren ist es vorteilhaft den Anfang der zu erzeugenden 
synthetisierten akustischen Daten unter Verwendung eines den Anfang einer Lautfolge 
wiedergebenden Audiosegmentbereiches bzw. das Ende der zu erzeugenden syntheti- 
sierten akustischen Daten unter Venvendung eines das Ende einer Lautfolge wiederge- 
benden Audiosegmentbereiches zu erzeugen. 

Urn die Erzeugung der synthetisierten akustischen Daten einfacher und schneller durch- 
zufuhren, ermoglicht es die Erfindung die Zahl der zur Datensynthetisierung notwendi- 
gen Audiosegmentbereiche zu reduzieren, indem Audiosegmentbereiche verwendet 
werden, die immer mit der Wiedergabe eines dynamischen Lauts beginnen. wodurch alle 
Konkatenationen dieser Audiosegmentbereiche mittels eines Hardfades durchgefiihrt 
werden konnen. Hierfur werden zeitlich nachgelagerte Audiosegmentbereiche mit zeit- 
lich vorgelagerten Audiosegmentbereichen verbunden, deren Anfange jeweils einen dy- 
namischen Laut wiedergeben. Auf diese Weise konnen auch mit geringer Rechenlei- 
stung (z.B. bei Anrufbeantwortem Oder Autoleitsystemen) erfindungsgemall synthe- 
tisierte akustische Daten hoher Qualitat erzeugt werden. 

AuBerdem sieht die Erfindung vor, akustische Phanomene nachzubliden, die sich auf- 
grund einer gegenseitigen Beeinflussung einzelner Segmente entsprechender naturli- 
cher akustischer Daten ergeben. Insbesondere ist hier vorgesehen, einzelne Audioseg- 
mente bzw. einzelne Bereiche der Audiosegmente mit Hilfe geeigneter Funktionen zu 
bearbeiten. Somit kann u.a. die Frequenz. die Dauer, die Amplitude oder das Spektmm 
der Audiosegmente verandert werden. Werden mit der Erfindung synthetisierte Sprach- 
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daten erzeugt, so werden zur Losung dieser Aufgabe vorzugsweise prosodische Infor- 
mationen und/oder ubergeordnete Koartikulationseffekte berucksichtigt. 

Der Signalverlauf von synthetisierten akustischen Daten kann zusatzlich verbessert wer- 
den, wenn der Konkatenationsmoment an Stellen der einzelnen zu verknupfenden Au- 
diosegmentbereiche gelegt wird. an denen die beiden verwendeten Bereiche hinsichtlich 
einer oder mehrerer geeigneter Eigenschaften ubereinstimmen. Diese Eigenschaften 
konnen u.a. sein: Nullstelle. Amplitudenwert. Steigung. Ableitung beliebigen Grades. 
Spektrum. Tonhohe, Amplitudenwert in einem Frequenzbereich, Lautstarke, Sprachstil, 
Sprachemotion, Oder andere im Lautklassifizierungsschema betrachtete Eigenschaften. 



Daruber hinaus ermoglicht es Erfindung, die Auswahl der Audiosegmentbereiche zur 
Erzeugung der synthetisierten akustischen Daten zu verbessern sowie deren Konka- 
tenation effizienter zu gestalten, indem heuristisches Wissen verwendet wird, das die 
Auswahl, Bearbeitung, Variation und Konkatenation der Audiosegmentbereiche betrifft. 

Urn synthetisierte akustische Daten zu erzeugen, die Sprachdaten sind, die sich von ent- 
sprechenden naturlichen Sprachdaten nicht unterscheiden, werden vorzugsweise Audio- 
segmentbereiche genutzt werden, die Laute/Phone oder Telle von Lautfol- 
gen/Phonfolgen wiedergeben. 

AuEerdem eriaubt die Erfindung die Nutzung der erzeugten synthetisierten akusti'^chen 
Daten. indem diese Daten in akustische Signale und/oder Sprachsignale umwandelbar 
und/ Oder auf einem Datentrager speicherbar sind. 

Des weiteren kann die Erfindung venft/endet werden, urn synthetisierte Sprachsignale zu 
Verfugung zu stellen, die sich von bekannten synthetisierten Sprachsignalen dadurch 
unterscheiden, daft sie sich in ihrer Natiirlichkeit und Verstandlichkeit nicht von realer 
Sprache unterscheiden. Hierfur werden Audiosegmentbereiche koartikulationsgerecht 
konkateniert, die jeweils Teile der Lautfolge/Phonfolge der zu synthetisierenden Sprache 
wiedergeben, indem die zu verwendenden Bereiche der Audiosegmente sowie der Mo- 
ment der Konkatenation dieser Bereiche erfindungsgemalS wie in Anspruch 28 definiert 
bestimmt werden. 

Eine zusatzliche Verbesserung der synthetisierten Sprache kann erreicht werden, wenn 
ein zeitlich nachgelagerter Audiosegmentbereich, dessen Anfang einen statlschen Laut 
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bzw. ein statisches Phon wiedergibt, mit einem zeitlich vorgelagerten Audiosegmentbe- 
reich mittels eines Crossfades verbunden wird, bzw. wenn ein zeitlich nachgelagerter 
Audiosegmentbereich, dessen Anfang einen dynamischen Laut bzw. ein dynamisches 
Phon wiedergibt, mit einem zeitlich vorgelagerten Audiosegmentbereich mittels eines 
Hardfades verbunden wird. Hierbei umfassen statische Phone Vokale, Diphtonge, Liqui- 
de, Frikative, VIbranten und Nasale bzw. dynamlsche Phone Plosive, Affrikate, Glottal- 
stops und geschlagene Laute. 

r- 

Da sich die Anfangs- und Endbetonungen von Lauten bei natOrlicher Sprache von ver- 
gleichbaren, aber eingebetteten Lauten unterscheiden, ist es zu bevorzugen, entspre- 
chende Audiosegmentbereiche zu ven^^enden, deren Anfange jewells den Anfang bzw. 
deren Enden jeweils das Ende von zu synthetisierender Sprache wiedergeben. 

^®!°"^®'"^ Erzeugung synthetisierter Sprache ist eine schnelie und effiziente Vorge- 
hensvveise wunschenswert. Hierfur ist es zu bevorzugen, erfindungsgemaBe koartikulati- 
onsgerechte Kqnkatenationen immer mittels Hardfades durchzufuhren, wobei nur Audio- 
segmentbereiche verwendet werden, deren AnfSnge jeweils immer einen dynamischen 
Laut bzw. ein dynamisches Phon wiedergeben. Derartige Audiosegmentbereiche konnen 
mit der Erfindung durch koartikulationsgerechte Konkatenation entsprechender Audio- 
segmentbereiche zuvor erzeugt werden. 

Des_weiteren stellt die Erfindung Sprachsignale bereit, die einen naturlichen SprachfluS. 
Sprachmelodie und Sprachrhythmus haben, indem Audiosegmentbereiche jeweils vor 
und/oder nach der Konkatenation in ihrer Gesamtheit Oder in einzelnen Bereichen mit 
Hilfe geeigneter Funktionen bearbeitet werden. Besonders vorteilhaft ist es diese Varia- 
tion zusStzlich in Bereichen durchzufuhren. in denen die entsprechenden Momente der 
Konkatenationen liegen, urn u.a. die Frequenz, Dauer, Amplitude Oder das Spektrum zu 
verSndem. 

Ein zusatzlich verbesserter Signalverlauf kann erreicht werden, wenn die Konkatenati- 
onsmomente an Stellen der zu verknupfenden Audiosegmentbereiche liegen, an denen 
diese in einer oder mehrerer geeigneter Eigenschaften ubereinstimmen. 

Urn eine einfache Nutzung und/oder Weiterverarbeitung der erfindungsgemalien 
Sprachsignale durch bekannte Verfahren oder Vorrichtungen, z.B. einem CD- 
Abspielgerat, zu eriauben, ist es besonders zu bevorzugen. dalS die Sprachsignale in 
akustische Signale umwandelbar oder auf einem Datentrager speicherbar sind. 
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Um die Erfindung auch bei bekannten Vorrichtungen, z.B. einem Personal Computer 
oderetnem computergesteuerten Musikinstrument, anzuwenden, ist ein Datentrager vor- 
gesehen, der ein Computerprogramm enthalt, der die Durchfuhrung des erfindungsge- 
5 mafien Verfahrens bzw. die Steuerung der erfindungsgemaRen Vorrichtung sowie deren 
verschiedenen Ausfuhrungsformen ermoglicht Des weiteren erlaubt der erfindungsge- 
maHe Datentrager auch die Erzeugung von Sprachsignalen, die koartikulationsgerechte 
Konkatenationen aufweisen. 

10 Um ein Audiosegmente umfassendes Inventar zur Verfugung zu stellen, mit dem synthe- 
tisierte akustische Daten, insbesondere synthetisierte Sprachdaten, erzeugt werden 
konnen, die sich von entsprechenden natiirlichen akusttschen Daten nicht unterschei- 
den, sieht die Erfindung einen Datenspeicher vor, der Audiosegmente enthalt, die geeig- 
net sind, um erfindungsgemaa zu synthetisierten akustischen Daten konkateniert zu 

15 werden. Vorzugsweise enthalt ein solcher Datentrager Audiosegmente, zur Durchfuh- 
rung des erfindungsgemaflen Verfahrens, zur Anwendung bei der erfindungsgemalien 
Vorrichtung Oder dem erfindungsgemaften Datentrager geeignet sind. Altemativ kann 
der Datentrager auch erfindungsgemafie Sprachsignale umfassen: 

20 Daruber hinaus ermoglicht es die Erfindung, erfindungsgemalSe synthetisierte akustische 
Daten. insbesondere synthetisierte Sprachdaten, zur Verfugung zu stellen. die mit her- 
kommlichen bekannten Vorrichtungen, beispielsweise einem Tonbandgerat. einem CD- . 
Spieler Oder einer PC-Audiokarte, genutzt werden konnen. Hierfur ist ein Tontrager vor- 
gesehen, der Daten aufweist, die zumindest teilweise mit dem erfindungsgemaSen Ver- 

25 fahren oder der erfindungsgemalien Vorrichtung bzw. unter VenA/endung des erfin- 

dungsgemafien Datentragers oder des erfindungsgemalien Datenspeichers erzeugt wur- 
den, Der Tontrager kann auch Daten enthalten, die erfindungsgemaR koartikulationsge- 
recht konkatenierte Sprach§ignale sind. 

30 Weitere Eigenschaften, Merkmale, Vorteile oder Abwandlungen der Erfindung werden 
anhand der nachfolgenden Beschreibung eriautert. Dabei zeigt: 

Figur 1a: Schematische Darstellung einer erfindungsgemalien Vorrichtung zur Erzeu- 
gung synthetisierter akustischer Daten; 

35 



Figur lb: Struktur eines Lautes / Phons. 
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Figur 2a: Struktur eines herkommlichen Audiosegmentes nach dem Stand der Technik, 
aus Teilen von zwei Lauten bestehend, also ein Diphon fur Sprache. Wesentlich ist, dalS 
die Solo-Artikulations-Bereiche jeweils nur teilweise im herkommlichen Diphon- 
Audiosegment enthaiten sind. 

5 

Figur 2b; Struktur eines erfindungsgemafien Audiosegmentes, das Teile eines Lau- 
tes/Phons mit nachgelagerten Koartikulationsbereichen (fur Sprache quasi ein Verscho- 
benes' Diphon) wiedergibt. 

10 Figur 2c: Stmktur eines erfindungsgemaaen Audiosegmentes, das Teile eines Lau- 
tes/Phpns mit vorgelagerten Koartikulationsbereichen wiedergibt. 

FigGiij:2d: Struktur eines erfindungsgemalien Audiosegmentes, das Teile eines Lau- 
tes/Phons mit nachgelagerten Koartikulationsbereichen wiedergibt und zusatzliche Be- 
15 reictljaenthalt. ' 

Figur 2e: Struktur eines erfindungsgemaaen Audiosegmentes, das Teile eines Lau- 
tes/Phons'mit vorgelagerten Koartikulationsbereichen wiedergibt und zusatzliche Berei- 
che enthalt. 

20 

Figur 2f: Stnjktur eines erfindungsgemaften Audiosegmentes, das Teile mehrerer Lau- 
te/P-hone (fur Sprache: ein Polyphon) mit jeweils nachgelagerten Koartikulationsberei- 
chen wiedergibt. Die Laute / Phone 2 bis (n-1) sind jeweils vollstandig im Audiosegment 
enthaiten, 

25 

Figur 2g: Struktur eines erfindungsgemalien Audiosegmentes, das Teile mehrerer Lau- 
te/Phone (fur Sprache: ein Polyphon) mit jeweils vorgelagerten Koartikulationsbereichen 
wiedergibt. Die Laute / Phone 2 bis (n-1) sind jeweils vollstandig im Audiosegment ent- 
haiten. 

30 

Figur 2h: Struktur eines erfindungsgemalien Audiosegmentes, das Teile mehrerer Lau- 
te/Phone (fur Sprache: ein Polyphon) mit jeweils nachgelagerten Koartikulationsberei- 
chen wiedergibt und zusatzliche Bereiche enthalt. Die Laute / Phone 2 bis (n-1) sind je- 
weils vollstandig im Audiosegment enthaiten. 

35 

Figur 2i: Struktur eines erfindungsgemalien Audiosegmentes, das Teile mehrerer Lau- 
te/Phone (fur Sprache: ein Polyphon) mit jeweils vorgelagerten Koartikulationsbereichen 
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wiedergibt und zusatzliche Bereiche enthalt. Die Laute / Phone 2 bis (n-1) sind jeweils 
vollstandig im Audiosegment enthalten. 

Figur2j: Struktur eines erfindungsgemalien Audiosegmentes, das einen Teil eines Lau- 
5 tes / Phons vom Anfang einer Lautfolge / Phonfolge wiedergibt. 

Figur 2k: Struktur eines erfindungsgemafien Audiosegmentes, das Teile von Lauten / 
Phonens vom Anfang einer Lautfolge / Phonfolge wiedergibt. 

10 Figur 21: Struktur eines erfindungsgemalien Audiosegmentes, das einen Laut / ein Phon 
vom Ende einer Lautfolge / Phonfolge wiedergibt. 

Figur 3a: Konkatenation gemaS dem Stand der Technik am Beispiel zweier herkommli- 
Cher Audiosegmente. Die Segmente beginnen und enden mitTeilen derSolo- 
15 Aktikulationsbereiche (in der Regel jeweils die Halfte). 

Figur Sal: Konkatenation gemafi dem Stand der Technik. Der Solo-Artikulationsbereich 
des mittleren Phons stammt aus zwei unterschiedlichen Audiosegmenten. v. 

20 Figur 3b: Konkatenation nach dem erfindungsgemaSen Verfahren am. Beispiel zweier 
Audiosegmente, die je einen Laut / ein Phon mit nachgelagerten Koartikulationsberei- 
chen enthalten. Beide Laute / Phone stammen aus der Mitte einer Lauteinheitehfolge 

Figur 3bl: Konkatenation dieser Audiosegmente mittels eines Crossfades. 
25 Der Soloartikulationsbereich stammt aus einem Audiosegment. Der Obergang zwischen 
den Audiosegmenten erfolgt zwischen zwei Bereichen und ist somit unempfindlicher ge- 
gen Unterschiede (im Spektmm, Frequenz, Amplitude etc.). Die Audiosegmente konnen 
vor der Konkatenation auch^noch mit zusatzlichen Ubergangsfunktionen bearbeitet wer- 
den. 

30 

Figur 3bll: Konkatenation dieser Audiosegmente mittels eines Hardfades. 

Figur 3c: Konkatenation gemaft dem erfindungsgemaSen Verfahren am Beispiel zweier 
erfindungsgemalier Audiosegmente, die je einen Laut / ein Phon mit nachgelagerten 
35 Koartikulationsbereichen enthalten, wobei das erste Audiosegment vom Anfang einer 
Lautfolge stammt. 
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FigurScl: Konkatenation dieser Audiosegmente mittels eines Crossfades. 

FigurScIl: Konkatenation dieser Audiosegmente mittels eines Hardfades. 

Figur 3d: Konkatenation gemafS dem erfindungsgemaUen Verfahren am Beispiel zweier 
erfindungsgemaSer Audiosegmente, die je einen Laut / ein Phon mit vorgelagerten Ko- 
artikuiationsbereichen enthalten. Beide Audiosegmente stammen aus der Mitte einer 
Lautfolge. 

Figur 3dl; Konkatenation dieser Audiosegmente mittels eines Crossfades. 
Der Soloartikulationsbereich stammt aus einem Audiosegment. 

Figapdll: Konkatenation dieser Audiosegmente mittels eines Hardfades. 

*■- ' " 

Figur 3e: Konkatenation nach dem erfindungsgemalSen Verfahren am Beispiel zweier 
erfindungsgernaBer Audiosegmente, die je einen Laut / ein Phon mit nachgelagerten 
Koartikulationsbereichen enthalten, wobei das letzte Audiosegment vom Ende einer 
Lautfolge Stammt. 

Figur 3el: Konkatenation dieser Audiosegmente mittels eines Crossfades. 

Figur 3ell: Konkatenation dieser Audiosegmente mittels eines Hardfades. 

Figur 4: Schematische Darstellung der Schritte eines erfindungsgemaSen Verfahrens 
zur Erzeugung synthetisierter akustischer Daten. 

Die im folgenden benutzten Bezugszeichen beziehen sich auf die Figur 1a und die im 
folgenden fur die verschiedenen Verfahrensschritte benutzten Nummern beziehen sich 
auf die Figur 4. 

Urn mit Hilfe der Erfindung beispielsweise einen Text in synthetisierte Sprache umzu- 
wandeln, ist es notwendig in einem vorgelagerten Schritt diesen Text in eine Folge von 
Lautzeichen bzw. Phonemen unter Verwendung bekannter Verfahren Oder Vorrichtun- 
gen zu unterteilen. Vorzugsweise sind auch dem Text entsprechende prosodische Infor- 
mationen zu erzeugen. Die Lautfolge bzw. Phonfolge sowie die prosodischen und zu- 
satzlichen Informationen dienen als Eingabegrolien fur das erfindungsgemaSe Verfah- 
ren bzw. die erfindungsgemalle Vorrichtung. 
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Die 2u synthetisierenden Laute/Phone werden ein$r Eingabeeinheit 101 der Vonichtung 
1 2ur Erzeugung synthetisierter Sprachdaten zugefuhrt und in einer ersten Speicherein- 
heit 103 abgelegt (siehe Figur la). Mit Hilfe einer Auswahleinrichtung 105 werden aus 
5 einem Audiosegmente (Elemente) enthaltenden Inventar, das in einer Datenbank 107 
gespeichert ist, Oder von einer vorgeschalteten Syntheseeinrichtung 108 (die nicht Be- 
standteil der Erfindung ist) die Audiosegmentbereiche ausgewahit, die Laute bzw. Phone 
Oder Teile von Lauten bzw. Phonen wiedergeben, die den einzelnen eingegebenen 
Lautzeichen bzw. Phonemen Oder Teilen davon entsprechen und in einer Reihenfolge, 

10 die der Reihenfolge der eingegebenen Lautzeichen bzw. Phoneme entspricht, in einer 
zweiten Speichereinheit 109 gespeichert. Falls das Inventar Teile von Lautfolgen Oder 
von Polyphonen wiedergebende Audiosegmente enthalt, so wahit die Auswahleinrich- 
tung 105 vorzugsweise die Audiosegmente aus, die die meisten Teile von Lautfolgen 
bzw. von Polyphonen wiedergeben, die einer Folge von Lautzeichen bzw. Phonemen 

15 aus der eingegebenen Lautzeichenfolge bzw. Phonemfolge entsprechen, so da(i eine 
minimale Anzahl von Audiosegmenten zur Synthese der eingegebenen Phonemfolge 
benotigt wird. 

Stent die Datenbank 107 Oder die vorgeschaltete Syntheseeinrichtung 108 ein Inventar 
20 mit Audiosegmenten unterschiedlicher Arten zur Verfugung, so wahIt die Auswahlein- 
richtung 105 vorzugsweise die langsten Audiosegmentbereiche aus, dieTeile der Laut- 
folge/Phonfolge wiedergeben , um die eingegebene Lautfolge bzw. Phonfolge uhd/oder 
eine Folge von Lauten/ Phonen aus einer minimalen Anzahl von AudiosegmentbBrei- 
chen zu synthetisieren. Hierbei ist es vorteilhaft, verkettete Laute/Phone wiedergebende 
25 Audiosegmentbereiche zu verwenden, die einen zeitiich vorgelagerten statischen 

Laut/Phon und einen zeitiich nachgelagerten dynamischen Laut/Phon wiedergeben. So 
entstehen Audiosegmente, die aufgrund der Einbettung der dynamischen Laute/Phone 
immer mit einem statischen^ Laut/Phon beginnen. Dadurch vereinfacht und vereinheitlicht 
sich das Vorgehen bei Konkatenationen solcher Audiosegmente, da hierfur nur Crossfa- 
30 des benotigt werden. 

Um eine koartikulationsgerechte Konkatenation der zu verkettenden Audiosegmentbe- 
reiche zu erzielen, werden mit Hilfe einer Konkatenationseinrichtung 111 die Korikatena- 
tionsmomente zweier aufeinanderfolgender Audiosegmentbereiche wie folgt festgelegt: 

35 

- Soil ein Audiosegmentbereich zu Synthetisierung des Anfanges der eingegebenen 
Lautfolge/Phonfolge (Schritt 1) verwendet werden, so ist aus dem Inventar ein Audio- 
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segmentbereich zu wahlen, das den Anfang einer Lautfolge/Phonfolge wiedergibt und 
mit einem zeitlich nachgelagerten Audiosegmentbereich zu verketten (siehe Figur 3c und 
Schritt 3 in Figur 4). 

- Bei der Konkatenation eines zweiten Audiosegmentbereiches an einen zeitlich vorgela- 
gerten ersten Audiosegmentbereich ist zu unterscheiden, ob der zweite Audiosegment- 
bereich mit der Wiedergabe eines statischen Lautes/Phons oder eines dynamischen 
Lautes/Phons beginnt, urn die Wahl des Momentes der Konkatenation entsprechend zu 
treffen (Schritt 6). 

- Beginnt der zweite Audiosegmentbereich mit einem statischen Laut/Phon. wird die 
Konkatenation in Form eines Crossfades durchgefuhrt, wobei der IVIoment der Konka- 

'"^ 2®'^''^^ hinteren Bereich des ersten Audiosegmentbereiches und im zeitlich 
vorgeren Bereich des zweiten Audiosegmentbereiches gelegt wird, wodurch sich diese 
beiden Bereiche bei der Konkatenation uberlappen oder wenigstens unmittelbar anein- 
andergrenzenl, (siehe Figuren 3bl, 3cl, 3dl und 3el, Konkatenation mittels Crossfade). 

- Beginntfder zweite Audiosegmentbereich mit einem dynamischen Laut/Phon. wird die 
Konkatenation in Form eines Hardfades durchgefuhrt, wobei der Moment der Konka- 
tenation zeitlich unmittelbar hinter der zeitlich hinteren Bereich des ersten Audioseg- 
mentbereiches und zeitlich unmittelbar vor dem zeitlich vorderen Bereich des zweiten 
Audiosegmentbreiches gelegt wird (siehe Figuren 3bll, 3cll, 3dll und 3ell, Konkatenation 
mittels Hardfade). 

Auf diese Weise konnen aus diesen ursprunglich verfugbaren Audiosegmentbereichen 
neue Audiosegmente erzeugt werden, die mit der Wiedergabe eines statischen Lau- 
tes/Phons beginnen. Dies erreicht man, indem Audiosegmentbereiche, die mit der Wie- 
dergabe eines dynamischen Lautes/Phons beginnen, zeitlich nachgelagert mit Audio- 
segmentbereichen. die mit der Wiedergabe eines statischen Lautes/Phons beginnen. 
verkettet werden. Dies vergroUert zwar die Zahl der Audiosegmente bzw. den Umfang 
des Inventars, kann aber bei der Erzeugung synthetisierter Sprachdaten einen rechen- 
technischen Vorteil darstellen, da weniger einzelne Konkatenatlonen zur Erzeugung ei- 
ner Lautfolge/Phonemfolge erforderliche sind und Konkatenatlonen nur noch in Fomi 
eines Crossfades durchgefuhrt werden miissen. Vorzugsweise werden die so erzeugten 
neuen verketteten Audiosegmente der Datenbank 107 oder einer anderen Speicherein- 
heit113zugefuhrt. 
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Ein weiterer Vorteil dieser Verkettung der ursprungliche Audiosegmentbereiche zu neuen 
/ langeren Audiosegmenten ergibt sich, wenn sich beispielsweise eine Folge von Lau- 
ten/Phonen in der eingegebenen Lautfolge/Phonfolge haufig wiederholt. Dann kann auf 
eines der neuen entsprechend verketteten Audiosegmente zunuckgegriffen werden und 
5 es ist nicht notwendig, bei jedem Auftreten dieser Folge von Lauten/Phonen eine er- 

neute Konkatenation der ursprunglich vorhandenen Audiosegmentbereiche durchzufuh- 
ren. Vorzugsweise sind bei der Speicherung solcher verketteten Audiosegmente auch 
ubergreifende Koartikulationseffekte zu erfassen bzw. spezifische Koartikulationseffekte 
in Form zusatzlicher Daten dem gespeicherten verketteten Audiosegment zuzuordnen. 

10 

Soli ein Audiosegmentbereich zu Synthetisierung des Endes der eingegebenen Lautfol- 
ge/Phonfolge verwendet werden, so ist aus dem Inventar ein Audiosegmentbereich zu 
wahlen. das ein Ende einer Lautfolge/Phonfolge wiedergibt und mit einem zeitlich vor- 
gelagerten Audiosegmentbereich zu verketten (siehe Figur 3e und Schritt 8 in Figur 4). 

15 

Die einzelnen Audiosegmente werden in der Datenbank 107 kodiert gespeichert, wobei 
die kodierte Form der Audiosegmente neben der Wellenform des jeweiligen Audioseg- 
mentes angeben kann, welche Teile von Lautfolgen/Phonfolgen das jeweiljge Audio- 
segment wiedergibt, welche Art der Konkatenation (z.B. Hardfade, linearer Oder expo- 

20 . nentieller Crossfade) mit welchem zeitlich nachfolgenden Audiosegmentbereich durch- 
zufuhren ist und zu welchem Moment die Konkatenation mit welchem zeitlich nachfol- 
genden Audiosegmentbereich stattfindet. Vorzugsweise enthalt die kodierte Form der 
Audiosegmente auch Informationen bezuglich der Prosodie, Cibergeordneten Kpartikula- 
tionen und Ubergangsfunktionen, die verwendet werden. um eine zusatzliche Verbesse- 

25 rung der Sprachqualitat zu erzielen. 

Bei der Wahl der Audiosegmentbereiche zur Synthetisierung der eingegebenen Lautfol- 
ge/Phonfolge werden als zeitlich nachgelagerte Audiosegmentbereiche solche gewahit, 
die den Eigenschaften der jeweils zeitlich vorgelagerten Audiosegmentbereiche. u.a. 

30 Konkatenationsart und Konkatenationsmoment. entsprechen. Nachdem die jeweils Teile 
der Lautfolge/Phonfolge wiedergebenden Audiosegmentbereiche aus der Datenbank 
107 Oder der vorgeschalteten Syntheseeinrichtung 108 gewahit wurden, erfolgt die Ver- 
kettung zweier aufeinanderfolgender Audiosegmentbereiche mit Hilfe der Konkatenati- 
onseinrichtung 111 folgendermalien. Es wird die Wellenform, die Konkatenationsart, der 

35 Konkatenationsmoment sowie evtl. zusatzliche Informationen des ersten Audiosegment- 
bereiches und des zweiten Audiosegmentbereiches aus der Datenbank oder der Syn- 
theseeinrichtung (Figur 3b und Schritt 10 und 1 1) geladen. Vorzugsweise werden bei der 
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oben erwahnten Wahl der Audiosegmentbereiche solche Audiosegmentbereiche ge- 
wahlt, die hinsichtlich ihrer Konkatenationsart und ihres Konkatenationsmoments zu ein- 
ander passen. In diesem Fall ist das Laden der Informationen bezuglich der Konkatena- 
tionsart und des Konkatenationsmomentes des zweiten Audiosegmentbereiches nicht 
5 mehr notwendig. 

* 

Zur Konkatenation der beiden Audiosegmentbereiche werden die Wellenform des ersten 
Audiosegmentbereiches in einem zeitlich hinteren Bereicti und die Wellenform des 
zweiten Audiosegmentbereiches in einem zeitlich vorderen Bereich jeweils mit geeigne- 

10 ten Ubergangsfunktionen bearbeitet, z,B. mit einer geeigneten Gewichtungsfunktion 
multipliziert (siehe Figur 3b, Schritt 12 und 13). Die Langen des zeitlich hinteren Berei- 
ches des ersten Audiosegmentbereiches und des zeitlich vorderen Bereiches des zwei- 
ten^udiosegmentbereiches ergeben sich aus der Konkatenationsart und zeitlichen Lage 
desvKonkatenationsmomentes, wobei diese Langen auch in der kodierten Form der Au- 

15 diosegmente in der Datenbank gespeichert werden konnen. 

Sind die beiden Audiosegmentbereiche mit einem Crossfade zu verketten, werden diese 
entsprech^nd dem jeweiligen Konkatenationsmoment uberlappend addiert (siehe Figu- 
ren 3bl. 3cl, 3dl und 3el, Schritt 15). Vorzugsweise ist hierbei ein linearer symmetrischer 

20 Crossfade zu verwenden, es kann aber auch jede andere Art eines Crossfades oder 
jede Art von Ubergangsfunktionen eingesetzt werden. Ist eine Konkatenation in Form 
eines Hardfades durchzufuhren, werden die beiden Audiosegmentbereiche nicht uber- 
lappend hintereinander verbunden (siehe Figur 3bll, 3cll, 3dll und 3ell, Schritt 15). Wie in 
Figur 3bll zu sehen ist, werden hiert^ei die beiden Audiosegmentbereiche zeitlich unmit- 

25 telbar hintereinander angeordnet. Um die so erzeugten synthetisierten Sprachdaten 

weiterverarbeiten zu konnen. werden diese vorzugsweise in einer dritten Speichereinheit 
115 abgelegt, 

Fiir die weitere Verkettung mit nachfolgenden Audiosegmentbereichen werden die bisher 
30 verketteten Audiosegmentbereiche als erster Audiosegmentbereich betrachtet (Schritt 

16) und der oben beschriebenen Verkettungsproze(S solange wiederholt, bis die gesamte 
Lautfolge/Phonfolge synthetisiert wurde. 

Zur Verbesserung der Qualitat der synthetisierten Sprachdaten sind vorzugsweise auch 
35 die prosodischen und zusatzlichen Informationen, die zusatzlich zu der Lautfol- 
ge/Phonfolge eingegeben werden, bei der Verkettung der Audiosegmentbereiche zu 
berucksichtigen. Mit Hilfe bekannter Verfahren kann die Frequenz, Dauer, Amplitude 
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und/oder spektralen Eigenschaften der Audiosegmentbereiche vor und/oder nach deren 
Konkatenation so verandert werden, daS die synthetisierten Sprachdaten eine naturliche 
Wort- und/oder Satzmelodie aufweisen (Schritte 14. 17 Oder 18). Hierbei ist es zu bevor- 
zugen, Konkatenationsmomente an Stellen der Audiosegmentbereiche zu wahlen, an 
denen diese in einer oder mehrerer geeigneter Eigenschaften ubereinstinnmen. 

Um die Ubergange zwischen zwei aufeinander folgenden Audiosegmentbereichen zu 
optimieren, ist zusatzlich die Bearbeitung der beiden Audiosegmentbereiche mit Hilfe 
geeigneter Funktionen im Bereich des Konkatenationsmomentes vorgesehen, um u.a. 
die Frequenzen, Dauern, Amplituden und spektralen Eigenschaften anzupassen. Des 
weiteren eriaubt es die Erfindung, auch ubergeordnete akustische Phanomene einer 
realen Sprache, wie z.B. ubergeordnete Koartikulationseffekte oder Sprachstil (u.a. Flu- 
stern, Betonung, Gesangsstimme, Falsett, emotionaler Ausdruck) bei der Synthetisiemng 
der Lautfolge/Phonfolgen zu berucksichtigen. Hierfur werden Informationen, die solche 
ubergeordnete Phanomene betreffen, zusatzlich in kodierter Form mit den entsprechen- 
den Audiosegmenten gespeichert, um so bei der Auswahl der Audiosegmentbereiche 
nur solche zu wahlen, die den ubergeordneten Koartikutationseigenschaften derzeitlich 
vor- und/oder nachgelagerten Audiosegmentbereichen entsprechen. 

Die so erzeugten synthetisierten Sprachdaten haben vorzugsweise eine Form, die es 
unter Verwendung einer Ausgabeeinheit 117 eriaubt, die Sprachdaten in akustische 
Sprachsignale umzuwandein und die Sprachdaten und/oder Sprachsignale auf einem 
akustischen. optischen, magnetischen oder elektrischen Datentrager zu speichern 
(Schritt 19). 

Im allgemeinen werden Inventarelemente durch die Aufnahme von real gesprochener 
Sprache erzeugt. In Abhangigkeit des Trainingsgrades des inventaraufbauenden Spre- 
chers, d.h. seiner Fahigkeit^ie aufzunehmende Sprache zu kontrollieren (z.B. die Ton- 
hohe der Sprache zu kontrollieren oder exakt auf einer Tonhohe zu sprechen), ist es 
moglich, gleiche od§r ahnliche Inventarelemente zu erzeugen. die verschobene Grenzen 
zwischen den Solo-Artikulationsbereichen und Koartikuiationsbereichen haben. Dadurch 
ergeben sich wesentlich mehr Moglichkeiten, die Konkatenationspunkte an verschiede- 
nen Stellen zu plazieren. In der Folge kann die Qualitat einer zu synthetisierenden Spra- 
che deutlich verbessert werden. 

Mit dieser Erfindung ist es erstmals moglich synthetisierte Sprachsignale durch eine ko- 
artikulationsgerechte Konkatenation einzelner Audiosegmentbereiche zu erzeugen, da 
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der Moment der Konkatenation in Abhangigkeit der jeweils zu verkettenden Audioseg- 
mentbereiche gewahit wird. Auf diese Weise kann eine synthetisierte Sprache erzeugt 
werden. die vom einer natiiriichen Sprache nicht mehrzu unterscheiden ist. im Gegen- 
satz zu bekannten Verfahren oder Vorrichtungen werden die hier verwendeten Audio- 
segmente nicht durch ein Einsprechen ganzer Worte erzeugt. urn eine authentische 
Sprachquaiitat zu gewahrleisten. Daher ist es mit dieser ErfindunQ moglich, synthetisierte 
Sprache beliebigen Inhalts in der Qualitat einer real gesprochenen Sprache zu erzeugen. 

Obwohl diese Erfindung am Beispiel der Sprachsynthese beschrieben wurde, ist die Er- 
findung nicht auf den Bereich der synthetisierten Sprache beschrankt, sondern kann zu 
Synthetisieaing beliebiger akustischer Daten, bzw. beliebiger Schallereignisse verwendet 
werden. Daher ist diese Erfindung auch fur eine Erzeugung und/oder Bereitstellung von 
sy^isierten Sprachdaten und/oder Sprachsignale fur beliebige Sprachen oder Dia- 
lekte-sowie auch zur Synthese von Musik einsetzbar. 
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Anspruche 

1. Verfahren zur koartikulationsgerechten Konkatenation von Audiosegmenten. urn syn- 
thetisierte akusttsche Daten zu erzeugen, die eine Folge konkatenierter Laute wiederge- 

5 ben, mit folgenden Schritten: 

- Auswahl von wenigstens zwei Audiosegmenten, die Bereiche enthalten, die jeweils 
einen Teil eines Lautes oder einen Tell der Lautfolge wiedergeben, aufweist, 
gekennzeichnet durch die Schritte: 

- Festlegen eines zu verwendenden Bereiches eines zeitlich vorgelagerten Audioseg- 
10 ments, 

- Festlegen eines zu verwendenden Bereiches eines zeitlich nachgelagerten Audioseg- 
ments, der zeitlich unmittelbar vor dem zu verwendenden Bereich des zeitlich nachgela- 
gerten Audiosegments beginnt und mit dem auf den zuerst verwendeten Soloartikulati- 
onsbereich folgenden Koartikulationsbereich des zeitlich nachgelagerten Audiosegments 

15 endet, 

- wobei die Dauer und Lage der zu verwendenden Bereiche in Abhangigkeit der vor- und 
nachgelagerten Audiosegmente bestimmt wird, und 

- Konkatenieren des festgelegten Bereiches des zeitlich vorgelagerten Audiosegments 
mit dem festgelegten Bereich des zeitlich nachgelagerten Audiosegments. indem der 

20 . Moment der Konkatenation in Abhangigkeit von Eigenschaften des verwendeten Berei- 
ches des zeitlich nachgelagerten Audiosegments in dessen festgelegten Bereich.gelegt 
wird. . ^ 

2. Verfahren nach Anspmch 1, dadurch gekennzeichnet, dad 

25 - der Moment der Konkatenation in einen Bereich gelegt wird, der in der Umgebung der 
Grenzen des zuerst zu verwendenden Soloartikulationsbereichs des zeitlich nachgela- 
gerten Audiosegments liegt, wenn dessen zu verwendender Bereich am Anfang einen 
statischen Laut wiedergibt,, und 

- ein zeitlich hinterer Bereich des zu verwendenden Bereiches des zeitlich vorgelagerten 
30 Audiosegments und ein zeitlich vorderer Bereich des zu verwendenden Bereiches des 

zeitlich nachgelagerten Audiosegments mit geeigneten Obergangsfunktionen bearbeitet 
und uberlappend addiert werden (Crossfade), wobei die Obergangsfunktionen und die 
Lange eines Oberlappungsbereichs der beiden Bereiche in Abhangigkeit der zu konka- 
tenierenden Audiosegmente bestimmt werden. 

35 

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daB 
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- der Moment der Konkatenation in einen Bereich gelegt wird, der zeitlich unmittelbar vor 
dem 2u venA/endenden Bereich des zeitlich nachgelagerten Audiosegments liegt, wenn 
dessen veoA/endeter Bereich am Anfang einen dynamischen Laut wiedergibt, und 

- ein zeitlich hinterer Bereich des zu verwendenden Bereiches des zeitlich vorgelagerten 
5 Audiosegments und ein zeitlich vorderer Bereich des zu verwendenden Bereiches des 

zeitlich nachgelagerten Audiosegments mit geeigneten Ubergangsfunktionen bearbeitet 
und nicht uberlappend verbunden werden (Hardfade), wobei die Ubergangsfunktionen in 
Abhangigkeit der zu synthetisierenden akustischen Daten bestimmt werden. 

10 4. Verfahren nach einem der Anspruche 1 bis 3. dadurch gekennzeichnet, dalJ 

fur einen Laut Oder einen Teil der Folge konkatenierter Laute am Anfang der konka- 
teriierten Lautfolge ein Bereich eines Audiosegmentes ausgewahit wird, so da(i der An- 
fangYdes Bereiches die Eigenschaften des Anfangs der konkatenierten Lautfolge wie- 
dergibt. 

15 

5. Verfahren^nach einem der Anspruche 1 bis 4, dadurch gekennzeichnet, dali fur einen 
Laut Oder einen Teil der Folge konkatenierter Laute am Ende der konkatenierten Laut- 
folge ein Bereich eines Audiosegmentes ausgewahit wird, so dafS das Ende des Berei- 
ches die Eigenschaften des Endes der konkatenierten Lautfolge wiedergibt. 

20 

6. Verfahren nach einem der Anspruche 1 bis 5, dadurch gekennzeichnet, daS 

die zu synthetisierenden Sprachdaten in Gruppen zusammengefadt werden, die jeweils 
durch ein einzelnes Audiosegment beschrieben werden. 

25 7, Verfahren nach einem der Anspruche 1 bis 6, dadurch gekennzeichnet, dali 

fur den zeitlich nachgelagerten Audiosegmentbereich ein Audiosegmentbereich gewahit 
wird, der die grolite Anzahl aufeinanderfolgender Telle der Laute der Lautfolge wieder- 
gibt, um bei der Erzeugung der synthetisierten akustischen Daten die kleinste Anzahl 
von Audiosegmentbereichen zu venA^enden. 

30 

8. Verfahren nach einem der Anspruche 1 bis 7, dadurch gekennzeichnet, daft 

eine Bearbeitung der verwendeten Bereiche einzelner Audiosegmente mit Hilfe geeig- 
neter Funktionen in Abhangigkeit von Eigenschaften der konkatenierten Lautfolge 
durchgefuhrt wird, wobei diese Eigenschaften u.a. eine Veranderung der Frequenz, der 
35 Dauer, der Amplitude oder des Spektrums sein konnen. 

9. Verfahren nach einem der Anspruche 1 bis 8, dadurch gekennzeichnet, dafi 
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eine Bearbeitung der verwendeten Bereiche einzelner Audiosegmente mit Hilfe geeig- 
neter Funktionen in einem Bereich durchgefuhrt wird, in dem der Moment der Konka- 
tenation liegt. Dies kann u.a. eine Veranderung der Frequenz, der Dauer, der Amplitude 
Oder des Spektrums sein. 



10. Verfahren nach einem der Anspruche 1 bis 9. dadurch gekennzeichnet, daR 

der Moment der Konkatenation an Stellen in den zu verwendenden Bereichen des zeit- 
lich vorgelagerten und/oder des zeitlich nachgelagerten Audiosegments gelegt wird, an 
denen die beiden verwendeten Bereiche hinsichtlich einer oder mehrerer geeigneter Ei- 
genschaften ubereinstimmen, wobei diese Eigenschaften u.a. sein konnen: Nullstelle, 
Amplitudenwert. Steigung. Ableitung beliebigen Grades. Spektrum. Tonhohe, AmplitJ- 
denwert in einem Frequenzbereich, Lautstarke. Sprachstii, Sprachemotion. oder andere 
im Lautklassifizierungsschema betrachtete Eigenschaften. 

11. Verfahren nach einem der Anspruche 1 bis 10. dadurch gekennzeichnet. daS 

- die Auswahl der verwendeten Bereiche einzelner Audiosegmente, deren Bearbeitung. 
deren Variation sowie deren Konkatenation zusatziich unter Verwendung heuristischen 
Wissens durchgefuhrt wird. das durch ein zusatziich durchgefuhrtes heuristisches Ver- 
fahren gewonnen wird. 

12. Verfahren einem der Anspruche 1 bis 1 1, dadurch gekennzeichnet, da(i 

- die zu synthetisierenden akustischen Daten Sprachdaten und die Laute Phone sind. 

- die statischen Laute Vokaie, Diphtonge. Liquide. Vibranten. Frikative und Nasale um- 
fassen, und 

- die dynamischen Laute Plosive, Affrikate. Glottalstops und geschlagenen Laute umfas- 
sen. 



13. Verfahren nach einem der Anspruche 1 bis 12. dadurch gekennzeichnet, daU 

- eine Umwandlung der synthetisierten akustischen Daten in akustische Signale 
und/oder Sprachsignale durchgefuhrt wird. 

14. Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten. urn 
synthetisierte akustische Daten zu erzeugen, die eine Folge von Lauten wiedergeben. 
mit: 

- einer Datenbank, in der Audiosegmente gespeichert sind, die jeweils Telle eines Lautes 
Oder Teile einer Folge von (konkatenierten) Lauten wiedergeben 
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- und/oder einer beliebigen vorgeschalteten Syntheseeinrichtung (nicht Bestandteil die- 
ser Erfindung), die Audiosegmente liefert, - einer Einrichtung zur Auswahl von wenig- 
stens zwei Audiosegmenten aus der Datenbank und/oder der vorgeschalteten Synthe- 
seeinrichtung, und 

- einer Einrichtung zur Konkatenation der Audiosegmente, dadurph gekennzeichnet, dad 
die Konkatenationseinrichtung geeignet ist, 

- einen zu verwendenden Bereiches eines zeitlich vorgelagerten Audiosegments zu defi- 
nieren, 

- einen zu verwendenden Bereiches eines zeitlich nachgelagerten Audiosegments in 
einem Bereich zu definieren, der mit dem zeitlich nachgelagerten Audiosegment beginnt 
und zeitlich nach einem auf den zuerst verwendeten Soloartikulationsbereich folgenden 
Koartikulationsbereich des zeitlich nachgelagerten Audiosegmentes endet, 

- diilDauer und Lage der verwendeten Bereiche in Abhangigkeit der vo^ und nachgela- 
gerten^Audiosegmente zu bestimmen, und 

- den verwendeten Bereich des zeitlich vorgelagerten Audiosegments mit dem ver^^en- 
deten Bereichdes zeitlich nachgelagerten Audiosegments durch Definition des Moment 
der Konkatenation in Abhangigkeit von Eigenschaften des verwendeten Bereiches des 
zeitlich nachgelagerten Audiosegments in einem Bereich zu konkatenieren, der zeitlich 
unmittelbar vor dem venA^endeten Bereich des zeitlich nachgelagerten Audiosegments 
beginnt und mit 'dem auf den zuerst ven^^endeten Soloartikulationsbereich folgenden 
Koartikulationsbereich des zeitlich nachgelagerten Audiosegments endet. 

15, Vonichtung nach Anspruch 14, dadurch gekennzeichnet, dali die Konkatenationein- 
nchtung umfaSt: 

- Einrichtungen zur Konkatenation des venA/endeten Bereiches des zeitlich vorgelagerten 
Audiosegments mit dem venvendeten Bereich des zeitlich nachgelagerten Audio- 
segment, dessen venA/endeter Bereich am Anfang einen statischen Laut wiedergibt, in 
der Umgebung der Grenzen des zuerst auftretetenden Soloartikulationsbereichs des 
verwendeten Bereiches des zeitlich nachgelagerten Audiosegments, 

- Einrichtungen zur Bearbeitung eines zeitlich hinteren Bereiches des verwendeten Be- 
reiches des zeitlich vorgelagerten Audiosegments und eines zeitlich vorderen Bereiches 
des verwendeten Bereiches des zeitlich nachgelagerten Audiosegments mit geeigneten 
Obergangsfunktionen, und 

• Einrichtungen zur uberlappenden Addition der beiden Bereiche in einem von den zu 
konkatenierenden Audiosegmenten abhangenden Uberlappungsbereich (Crossfade), 
wobei die Obergangsfunktionen und die Lange eines Uberlappungsbereiches der beiden 
Bereiche in Abhangigkeit derzu synthetisierenden akustischen Daten bestimmt werden. 
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16. Vorrtchtung nach Anspruch 14. dadurch gekennzeichnet, dafl die Konkatenationein- 
richtung umfaSt: 

- Einrichtungen zur Konkatenation des verwendeten Bereiches des zeitiich vorgelagerlen 
Audiosegments mit dem verwendeten Bereich des zeitiich nachgelagerten Audio- 
segment, dessen verwendeter Bereich am Anfang einen dynamischen Laut wiedergibt. 
zeitiich unmittelbar vor dem venA/endeten Bereich des zeitiich nachgelagerten Audio- 
segments, 

- Einrichtungen zur Bearbeitung eines zeitiich hinteren Bereiches des verwendeten Be- 
reiches des zeitiich vorgelagerten Audiosegments und eines zeitiich vorderen Bereiches 
des verwendeten Bereiches des zeitiich nachgelagerten Audiosegments mit geeigneten 
Ubergangsfunktionen, wobei die Ubergangsfunktionen in Abhangigkeit derzu syntheti- 
sierenden akustischen Daten bestimmt werden, und 

- Einrichtungen zur nicht uberlappenden Verbindung der Audiosegmente. 

17. Vorrichtung nach einem der Anspruche 14 bis 16, dadurch gekennzeichnet. daS 
die Datenbank Audiosegmente enthalt Oder die vorgeschaltete Syntheseeinrichtung Au- 
diosegmente liefert, die Bereiche enthalten, die zu Beginn einen Laut oder ^inen Teil der 
konkatenierten Lautfolge am Anfang der konkatenierten Lautfolge wiedergibt. 

18. Vorrichtung nach einem der Anspruche 14 bis 17, dadurch gekennzeichnet, daft 
die Datenbank Audiosegmente enthalt oder die vorgeschaltete Syntheseeinrichtung Au- 
diosegmente liefert, die Bereiche enthalten, deren Ende einen Laut oder einen TeU der 
konkatenierten Lautfolge am Ende der konkatenierten Lautfolge wiedergibt. 

19. Vorrichtung nach einem der Anspruche 14 bis 18, dadurch gekennzeichnet. daS 
die Datenbank eine Gruppe von Audiosegmenten enthalt oder die vorgeschaltete Syn- 
theseeinrichtung Audiosegrriente liefert, die Bereiche enthalten, deren Anfange jeweils 
nur einen statischen Laut wiedergeben. 

20. Vorrichtung nach einem der Anspruche 14 bis 19, dadurch gekennzeichnet, daft die 
Konkatenationseinrichtung umfaftt: 

- Einrichtungen zur Erzeugung weiterer Audiosegmente durch Konkatenation von Berei- 
chen von Audiosegmenten, wobei die Anfange der Bereiche jeweils einen statischen 
Laut wiedergeben, jeweils mit einem Bereich eines zeitiich nachgelagerten Audioseg- 
ment, dessen verwendeter Bereich am Anfang einen dynamischen Laut wiedergibt, und 
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- eine Einrichtung, die die weiteren Audiosegmente der Datenbank oder der Auswahiein- 
richtung zufuhrt. 

21. Vorrichtung nach einem der Anspruche 14 bis 20. dadurch gekennzeichnet, daB 
5 die Auswahleinrichtung geeignet ist, bei der Auswafil der Audiosegmentbereiche aus der 
Datenbank oder der vorgeschalteten Syntlieseeinrichtung, die Audiosegmentbereiche 
auszuwahlen. die jeweils die melsten aufeinanderfolgenden Teile der konkatenierten 
Laute der konkatenierten Lautfoige wiedergeben. 

10 22. Vorrichtung nach einem der Anspruche 14 bis 21. dadurch gekennzeichnet. daE 

die Konkatenationseinrichtung Einrichtungen zur Bearbeitung der verwendeten Bereiche 
einjielher Audiosegmente mit Hilfe geeigneter Funktionen in Abhangigkeit von Eigen- 
sphaften der konkatenierten Lautfoige aufweist. Dies kann u.a. eine Veranderung der 
Frequenz, der Dauer, der Amplitude oder des Spektrums sein. 

15 

23. Vorrichtun'g nach einem der Anspruche 14 bis 22. dadurch gekennzeichnet. daU 

- die Konkatenationseinrichtung Einrichtungen zur Bearbeitung der verwendeten Berei- 
che einzelrier Audiosegmente mit Hilfe geeigneter Funktionen in einem den Moment der 
Konkatenation umfassenden Bereich aufweist, wobei diese Funktion u.a. eine Verande- 

20 rung der Frequenz, der Dauer, der Amplitude oder des Spektrums sein kann. 

24. Von-ichtung nach einem der Anspruche 14 bis 23, dadurch gekennzeichnet. daB 

- die Konkatenationseinrichtung Einrichtungen zur Auswahl des Momentes der Konka- 
tenation bei einer Stelle in den verwendeten Bereichen des zeitlich vorgelagerten 

25 und/oder des zeitlich nachgelagerten Audiosegments, an denen die beiden verwendeten 
Bereiche hinsichtlich einer oder mehrerer geeigneter Eigenschaften ubereinstimmen, 
wobei diese Eigenschaften u.a. sein konnen: Nullstelle, Amplitudenwert. Steigung, Ab- 
leitung beliebigen Grades, Spektrum, Tonhohe, Amplitudenwert in einem Frequenzbe- 
reich. Lautstarke, Sprachstil, Sprachemotion, oder andere im Lautklassifizieojngsschema 

30 betrachtete Eigenschaften. 

25. Vorrichtung nach einem der Anspruche 14 bis 24, dadurch gekennzeichnet. daU 

- die Auswahleinrichtung Einrichtungen zur Implementation heuristischen Wissens um- 
fafit. das die Auswahl der verwendeten Bereiche der einzelnen Audiosegmente, deren 

35 Bearbeitung, deren Variation sowie deren Konkatenation betrifft. 

26. Vorrichtung nach einem der Anspruche 14 bis 25, dadurch gekennzeichnet, daB 
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- die Datenbank Audiosegmente enthalt Oder die vorgeschaltete Syntheseeinrichtung 
Audiosegmente liefert, die Bereiche enthalten, die jeweils wenigstens einen Teil eines 
Lautes bzw. Phons. einen Laut bzw. ein Phon. Teile von Lautfolgen bzw. Polyphonen 
Oder Lautfolgen bzw. Polyphone wiedergeben, wobei ein statischer Laut einen statischen 
Phon entspricht und Vokale, Diphtonge, Liquide, Vibranten, Frikative und Nasale umfaBt 
und 

ein dynamischer Laut einem dynamischen Phon entspricht und Plosive, Affrikate, Glottal- 
stops und geschlagene Laute umfaat, und 

- die Konkatenationseinrichtung geeignet ist, urn durch Konkatenation von Audioseg- 
menten synthetisierte Sprachdaten zu erzeugen. 

27. Vorrichtung nach einem der Anspruche 14 bis 26. dadurch gekennzeichnet, da(i 

- Einrichtungen zur Umwandlung der synthetisierten akustischen Daten in akustische 
Signale und/oder Sprachsignale vorhanden sind. 

28. Synthetisierte Sprachsignale, die aus einer Folge von Lauten bzw. Phonen bestehen, 
wobei die Sprachsignale erzeugt werden, indem: 

- wenigstens zwei die Laute bzw. Phone wiedergebende Audiosegmente agsgewahlt 
werden, und 

die Audiosegmente durch eine koartikulationsgerechte Konkatenation. verkettet werden, 
wobei 

- ein zu verwendender Bereich eines zeitlich vorgelagerten Audiosegments festgelegt 
wird, 

- ein zu verwendender Bereich eines zeitlich nachgelagerten Audiosegments festgelegt 
wird, der zeitlich unmittelbar vor dem zu venA/endenden Bereich des zeitlich nachgela- 
gerten Audiosegments beginnt und mit dem auf den zuerst verwendeten Soloartikulati- 
onsbereich folgenden Koartikulationsbereich des zeitlich nachgelagerten Audiosegments 
endet, 

- wobei die Dauer und Lage der zu verwendenden Bereiche in Abhangigkeit der Audio- 
segmente bestimmt wird, und 

- die verwendeten Bereiche der Audiosegmente koartikulationsgerecht konkateniert wer- 
den, indem der Moment der Konkatenation in Abhangigkeit von Eigenschaften des ver- 
wendeten Bereiches des zeitlich nachgelagerten Audiosegments in dessen festgelegten 
Bereich gelegt wird. 

29. Synthetisierte Sprachsignale nach Anspruch 28, dadurch gekennzeichnet, daR die 
Sprachsignale erzeugt werden, indem 
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- die Audiosegmente zu einem Moment konkateniert werden, der in der Umgebung der 
Grenzen des zuerst auftretenden Soloartikulationsbereichs des verwendeten Bereiches 
des zeitlich nachgelagerten Audiosegmentes liegt, wenn der Anfang dieses Bereiches 
einen statischen Laut bzw. ein statisches Phon wiedergibt . wobei ein statisches Phon 
ein Vokal, ein Diphtong, ein Liquid, ein Frikativ. ein Vibrant oderein Nasal ist und 

- ein zeitlich hinterer Bereich des verwendeten Bereiches des zeitlich vorgelagerten Au- 
diosegments und ein zeitlich vorderer Bereich des venA^endeten Bereiches des zeitlich 
nachgelagerten Audiosegments mit geeigneten Ubergangsfunktionen bearbeitet und 
beide Bereiche uberlappend addiert werden (Crossfade), wobei die Ubergangsfunktio- 
nen und die Lange eines Uberlappungsbereichs beiden Bereiche in Abhangigkeit der zu 
konkatenierenden Audiosegmente bestimmt werden, 

30; ■Synthetisierte Sprachsignale nach Anspruch 28, dadurch gekennzeichnet, daB die 
Sprachsignale erzeugt werden, indem 

- die y^udiosegmente zu einem Moment konkateniert werden, der zeitlich unmittelbar vor 
dem venA^end^ten Bereich des zeitlich nachgelagerten Audiosegmentes liegt, wenn der 
Anfang dieses -Bereiches einen dynamischen Laut bzw. ein dynamisches Phon wieder- 
gibt, wobePein dynamisches Phon ein Plosiv. ein Affrikat, ein Glottalstop oder ein ge- 
schlagener Laut ist, und 

- ein zeitlich hinterer Bereich des venA^endeten Bereiches des zeitlich vorgelagerten Au- 
diosegments und ein zeitlich vorderer Bereich des verwendeten Bereiches des zeitlich 
nachgelagerten Audiosegments mit geeigneten Obergangsfunktionen bearbeitet werden 
und nicht uberlappend verbunden werden (Hardfade) wobei die Ubergangsfunktionen in 
Abhangigkeit der zu konkatenierenden Audiosegmente bestimmt werden. 

31. Synthetisierte Sprachsignale nach einem der Anspruche 28 bis 30, dadurch gekenn- 
zeichnet, daS 

- der erste Laut bzw. das erste Phon Oder ein Teil der ersten Lautfolge bzw. des ersten 
Polyphons in der Folge durch ein Audiosegment erzeugt wird, dessen venA^endeter Be- 
reich am Anfang die Eigenschaften des Anfangs der Folge wiedergibt 

32. Synthetisierte Sprachsignale nach einem der Anspruche 28 bis 31, dadurch gekenn- 
zeichnet, dais 

- der letzte Laut bzw. das letzte Phon oder ein Teil der letzten Lautfolge bzw. des letzten 
Polyphon in der Folge durch ein Audiosegment erzeugt wird. dessen verwendeter Be- 
reich am Ende die Eigenschaften des Endes der Folge wiedergibt. 
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33. Synthetisierte Sprachsignale nach einem der Anspruche 28 bis 32, dadurch gekenn- 
zeichnet, da(i 

- die Sprachsignale erzeugt werden indem nachgelagerte mit der Wiedergabe eines dy- 
namischen Lautes bzw. Phons beginnenden Bereiche von Audiosegmenten mit vorgela- 
gerten mit der Wiedergabe eines statischen Lautes bzw. Phons beginnende Bereichen 
von Audiosegmenten konkateniert werden. 

34. Synthetisierte Sprachsignale nach einem der Anspruche 28 bis 33. dadurch gekenn- 
zeichnet, dafi 

- die Audiosegmentbereiche ausgewahit werden, die die meisten Teile von Lauten bzw. 
Phonen der Folge wiedergeben, urn bei der Erzeugung der Sprachsignale die minimale 
Anzahl von Audiosegmentbereichen zu verwenden. 

35. Synthetisierte Sprachsignale nach einem der Anspruche 28 bis 34, dadurch gekenn- 
zeichnet, dali 

- die Sprachsignale durch Konkatenation der verwendeten Bereiche von Audiosegmen- 
ten erzeugt werden, die mit Hilfe geeigneter Funktionen in Abhangigkeit von Eigen- 
schaften der Lautfolge bzw. Phonfolge bearbeitet werden. Dies kann u.a. sine Verande- 
mng der Frequenz, der Dauer, der Amplitude Oder des Spektrums sein. 

36. Synthetisierte Sprachsignale einem der Anspruche 28 bis 35, dadurch gekennzeich- 
net, da(i 

- die Sprachsignale durch Konkatenation der verwendeten Bereiche von Audiosegmen- 
ten erzeugt werden, die mit Hilfe geeigneter Funktionen in Abhangigkeit von Eigen- 
schaften der Lautfolge bzw. Phonfolge in einem Bereich bearbeitet werden, in dem der 
Moment der Konkatenation liegt, wobei diese Eigenschaften u.a. eine Veranderung der 
Frequenz, der Dauer, der Amplitude oder des Spektnjms sein konnen. 

37. Synthetisierte Sprachsignale einem der Anspruche 28 bis 36, dadurch gekennzeich- 
net, dafi der Moment der Konkatenation bei einer Stelle in den verwendeten Bereichen 
des vorgelagerten und/oder des nachgelagerten Audiosegmentes liegt, an denen die 
beiden verwendeten Bereiche hinsichtlich einer Oder mehrerer geeigneter Eigenschaften 
ubereinstimmen, wobei diese Eigenschaften u.a. sein konnen: Nullstelle. Amplituden- 
wert. Steigung, Ableitung beliebigen Grades, Spektrum, Tonhohe, Amplitudenwert in 
einem Frequenzbereich, Lautstarke, Sprachstil, Sprachemotion, Oder andere im Laut- 
klassifizierungsschema betrachtete Eigenschaften. 
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38. Synthetisierte Sprachsignale nach einem der Anspruche 28 bis 37. dadurch gekenn- 
zeichnet daU die Sprachsignale geeignet sind, in akustische Signale umgewandelt zu 
werden. 

39. Datentrager. der ein Computerprogramm zur koartikulationsgerechten Konkatenation 
von Audiosegmenten enthalt, urn synthetisierte akustische Dateh zu erzeugen, die eine 
Folge konkatenierter Laute wiedergeben, mit folgenden Schritten: 

- Auswahl von wenigstens zwei Audiosegmenten, die Bereiche enthalten, die jeweils 
einen Teil eines Lautes oder einen Tell der Folge konkatenierter Laute wiedergeben, 
gekennzeichnet durch die Schritte: 

- Festlegen eines zu verwendenden Bereiches eines zeitiich vorgelagerten Audioseg- 
ments. 

- FJstlegen eines zu venA^endenden Bereiches eines zeitiich nachgeiagerten Audioseg- 
merit^s, der zeitiich unmittelbar vor dem zu verwendenden Bereich des zeitiich nachgeia- 
gerten Audiosegments beginnt und mit dem auf den zuerst venA/endeten Soloartikulati- 
onsbereich folgenden Koartikulationsbereich des zeitiich nachgeiagerten Audiosegments 
endet. 

- wobei die Dauer und Lage der zu verwendenden Bereiche in Abhangigkeit der vor- und 
nachgeiagerten Audiosegmente bestimmt wird, und 

- Konkatenieren des festgelegten Bereiches des zeitiich vorgelagerten Audiosegments 
mit dem festgelegten Bereich des zeitiich nachgeiagerten Audiosegments, indem der 
Moment der Konkatenation in Abhangigkeit von Eigenschaften des verwendeten Berei- 
ches des zeitiich nachgeiagerten Audiosegments in dessen festgelegten Bereich gelegt 
wird. 

40. Datentrager nach Anspnjch 39, dadurch gekennzeichnet. dali das Computerpro- 
gramm den Moment der Konkatenation des venA/endeten Bereiches des zweiten Audio- 
segmentes mit dem veoA/endeten Bereich des ersten Audiosegment so wahlt. daB 

- der Moment der Konkatenation in einen Bereich gelegt wird, der in der Umgebung der 
Grenzen des zuerst venA/endeten Soloartikulationsbereichs des zeitiich nachgeiagerten 
Audiosegments liegt, wenn dessen verwendeter Bereich am Anfang einen statischen 
Laut wiedergibt, und 

- ein zeitiich hinterer Bereich des verwendeten Bereiches des zeitiich vorgelagerten Au- 
diosegments und ein zeitiich vorderer Bereich des venA/endeten Bereiches des zeitiich 
nachgeiagerten Audiosegments mit geeigneten Ubergangsfunktionen bearbeitet und 
uberlappend addiert werden (Crossfade), wobei Obergangsfunktionen und die Lange 
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eines Uberlappungsbereichs der beiden Bereiche in Abhangigkeit der zu konkatenieren- 
den Audiosegmente bestimmt wird. 

41. Datentrager nach Anspruch 39 dadurch gekennzeichnet, dalX das Computerpro- 
gramm den Moment der Konkatenation des verwendeten Bereiches des zwelten Audio- 
segmentes mit dem verwendeten Bereich des ersten Audiosegmentes so wahlt. daU 

- der Moment der Konkatenation in einen Bereich gelegt wird. der zeitiich unmittelbar vor 
dem verwendeten Bereich des zeitiich nachgelagerten Audiosegments liegt. wenn des- 
sen ven^endeter Bereich am Anfang einen dynamischen Laut wiedergibt, und 

- ein zeitiich hinterer Bereich des verwendeten Bereiches des zeitiich vorgelagerten Au- 
diosegments und ein zeitiich vorderer Bereich des venvendeten Bereiches des zeitiich 
nachgelagerten Audiosegments mIt geeigneten Ubergangsfunktionen bearbeitet und 
nicht uberlappend verbunden werden (Hardfade). wobei die Obergangsfunktionen in 
Abhangigkeit der zu konkatenierenden Audiosegmente bestimmt werden. 

42. Datentrager nach einem der Anspruche 39 bis 41, dadurch gekennzeichnet, dalJ das 
Computerprogramm fur einen Laut Oder einen Teil der Folge konkatenierter Laute am 
Anfang der konkatenierten Lautfolge einen Bereich eines Audiosegments auswahlt. des- 
sen Anfang die Eigenschaften des Anfangs der konkatenierten Lautfolge wiedergibt. 

43. Datentrager nach einem der Anspruche 39 bis 42. dadurch gekennzeichnet. dali das 
Computerprogramm fur einen Laut Oder einen Teil der Folge konkatenierter Laute am 
Ende der konkatenierten Lautfolge einen Bereich eines Audiosegments auswahjt. des- 
sen Ende die Eigenschaften des Endes der konkatenierten Lautfolge wiedergibt 

44. Datentrager nach einem der Anspruche 39 bis 43. dadurch gekennzeichnet. dali das 
Computerprogramm eine Bearbeitung der verwendeten Bereiche einzelner Audioseg- 
mente mit Hilfe geeigneter.Funktionen in Abhangigkeit von Eigenschaften der Lautfolge 
durchfuhrt. Dies kann u.a. eine Veranderung der Frequenz. der Dauer, der Amplitude 
Oder des Spektrums sein. 

45. Datentrager nach einem der Anspruche 39 bis 44. dadurch gekennzeichnet, daS das 
Computerprogramm fur den zeitiich nachgelagerten Audiosegmentbereich einen Audio- 
segmentbereich wahlt, der die grolite Anzahl aufeinanderfolgender Teile der konka- 
tenierter Laute der Lautfolge wiedergibt, urn bei der Erzeugung der synthetisierten aku- 
stischen Daten die kleinste Anzahl von Audiosegmentbereichen zu verwenden. 
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46. Datentrager nach einem der Anspruche 39 bis 45, dadurch gekennzeichnet. daS das 
Computerprogramm eine Bearbeitung der verwendeten Bereiche einzelner Audioseg- 
mente mit Hilfe geeigneter Funktionen in einem Bereich durchfuhrt, in dem der Moment 
der Konkatenation llegt. Dies kann u.a. eine Veranderung der Frequenz, der Dauer, der 
Amplitude Oder des Spektrums sein. 

47. Datentrager nach einem der Anspruche 39 bis 46. dadurch gekennzeichnet. da(J 
Computerprogramm den Moment der Konkatenation bei feiner Stelle in den verwendeten 
Bereichen des ersten und/oder des zweiten Audiosegmentes festlegt, an denen die bei- 
den venwendeten Bereiche hinsichtlich einer Oder mehrerer geeigneter Eigenschaften 
Cibereinstimmen. wobei diese Eigenschaften u.a. sein konnen: Nullstelle. Amplituden- 
we^rt, Steigung, Ableitung beliebigen Grades. Spektrum, Tonhohe, Amplitudenwert in 

Lautstarke, Sprachstil. Sprachemotion, oderandere im Laut- 
klassifiziemngsschema betrachtete Eigenschaften. 

48. Datentragernach einem der Anspruche 39 bis 47, dadurch gekennzeichnet, daB das 
Computerprogramm eine implementation von heuristischem Wissen durchfuhrt, das die 
Auswahl der venA/endeten Bereiche der einzeinen Audiosegmente, deren Bearbeitung. 
deren Variation sowie deren Konkatenation betrifft. 

49. Datentrager nach einem der Anspruche 39 bis 48, dadurch gekennzeichnet, dad das 
Computerprogramm zur Erzeugung synthetisierter Sprachdaten geeignet ist, wobei die 
Laute Phone sind, die statischen Laute Vokale, Diphtonge, Liquide, Vibranten, Frikative 
und Nasale und die dynamischen Laute Plosive. Affrikate, Glottalstops und geschlagene 
Laute umfassen. 

50. Datentrager nach einem der Anspruche 39 bis 49. dadurch gekennzeichnet, dali das 
Computerprogramm die synthetlsierten akustischen Daten in akustische umwandelbare 
Daten und/oder Sprachsignale umwandelt. 

51. Akustischer, optischer. magnetischer oder elektrischer Datenspeicher. der Audio- 
segmente enthait. um durch eine Konkatenation von verwendeten Bereichen der Audio- 
segmente unter VeoA/endung des Verfahrens nach Anspruch 1 oder der Vorrichtung 
nach Anspmch 14 oder des Datentragers nach Anspruch 39 synthetisierte akustische 
Daten zu erzeugen. 
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52. Datenspeicher nach Anspruch 51, dadurch gekennzeichnet. da(i eine Gruppe der 
Audiosegmente Laute bzw. Phone oder Teile von Lauten bzw. Phonen wiedergeben. 

53. Datenspeicher nach Anspruch 51 oder 52, dadurch gekennzeichnet, da(i eine Gmp- 
pe der Audiosegmente Lautfolgen oder Teile von Lautfolgen bzw. Polyphone Oder Teile 
von Polyphonen wiedergeben. 

54. Datenspeicher nach einem der Anspruche 50 bis 53. dadurch gekennzeichnet, dall 
eine Gmppe von Audiosegnnenten zur V/erfugung gesteilt wird, deren verwendete Berei- 
che mit einem statischen Laut bzw. Phon beginnen, wobei die statischen Phone Vokale, 
Diphtonge, Liquide, Frikative, Vibranten und Nasale umfassen, 

55. Datenspeicher nach einem der Anspruche 50 bis 54, dadurch gekennzeichnet, dali 
Audiosegmente zur Verfugung gesteilt werden, die geeignet sind in akustische Signale 
umgewandelt zu werden. 

56. Datenspeicher nach einem der Anspruche 50 bis 55, der zusatzlich Informationen 
enthalt, um eine Bearbeitung der verwendeten Bereiche einzelner Audiosegmente mit 
Hilfe geeigneter Funktionen in Abhangigkeit von Eigenschaften der zu synthetisierenden 
akustischen Daten durchzufuhren. Dies kann u.a. eine Veranderung der Frequenz, der 
Dauer, der Amplitude oderdes Spektrums sein. 

57. Datenspeicher nach einem der Anspruche 50 bis 56, der zusatzlich Informationen 
enthalt, die eine Bearbeitung der verwendeten Bereiche einzelner Audiosegmente und 
mit Hilfe geeigneter Funktionen in einem Bereich betreffen, in dem der Moment der Kon- 
katenation liegt. Dies kann u.a. eine Veranderung der Frequenz. der Dauer, der Amplitu- 
de Oder des Spektrums sein. 

58. Datenspeicher nach einem der Anspruche 50 bis 57, der zusatzlich verkettete Audio- 
segmente zur Verfugung stellt, deren Moment der Konkatenation bei einer Stelle der 
verwendeten Bereiche des zeitlich vorgelagerten und/oder des zeitlich nachgelagerten 
Audiosegmentes liegt, an denen die beiden verwendeten Bereiche hinsichtlich einer oder 
mehrerer geeigneter Eigenschaften ubereinstimmen. Diese Eigenschaften konnen u.a. 
sein: Nullstelte, Amplitudenwert, Steigung. Ableitung beliebigen Grades, Spektrum, Ton- 
hohe, Amplitudenwert in einem Frequenzbereich, Lautstarke, Sprachstil, Sprachemotion, 
Oder andere im Lautklassifizierungsschema betrachtete Eigenschaften. 
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59. Datenspeicher nach einem der Anspruche 50 bis 58, der zusatzlich Informationen in 
Form von heuristischem Wissen enthalt, die die Auswahl der venA^endeten Bereiche der 
einzelnen Audiosegmente, deren Bearbeitung, dereh Variation sowie deren Konkatena- 
tion betreffen. 

5 

60. Tontrager, der Daten enthalt, die zumindest teilweise synthetisierte akustische Daten 
sind, die 

- mit einem Verfahren nach einem der Anspruche 1 bis 13^, oder 

- mit einer Vorrichtung nach einem der Anspruche 14 bis 27, oder 

10 - unter Verwendung eines Datentragers nach einem der Anspruche 39 bis 49, oder 

- unter Verwendung eines Datenspeichers nach einem der Anspruche 50 bis 59 
erzeugt warden, oder 

- di^SSprachsignale nach einem der Anspruche 28 bis 38 sind. 

■ " 'ir- 

is ei.'^Tontrager nach Anspruch 60, dadurch gekennzeichnet, dad die synthetisierten aku- 
stischen. Daten. synthetisierte Sprachdaten sind. 
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Figiir lb: Struktur eines Lautes / Phons 
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Figuren 2a bis 2i: Strukturen der Audiosegmente 
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Figur 2g: 
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Figur 2j: 
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Figuren 3a bis 3d: Konkatenation 
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Figur 3c: 
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Figur 3d: 
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Figur 3e: 



Audiosegment 1 



SAB 


EKB 


AKB 


1 


1 


2 



Y 
Phon 1 



Phon 2 



Audiosegment 2 



f 


^ 


SAB 


EKB 


2 


2 



^ V ' 

Phon 2 



Figur 3el: 



Audiosegment 1 



Audiosegment 2 



SAB 


EKB 


akb\ 


/ SAB 


EKB 


1 


1 


7 


\ 


2 



V 
Phon 1 



N"^ 

Phon 2 



Figur Sell: 



Audiosegment 1 




Audiosegment 2 



SAB 


EKB 


AKB 


SAB 


EKB 


1 


1 


2 


2 


2 



V 
Phon 1 



— 
Phon 2 



SUBSTITUTE SHEET (RULE 26) 



wo 00/11647 



12/13 



PCT/EP99/06081 



GO 



0) 
E^ 



U 

g. 



0) 




Cn 




rH 




O 








0) 




C 


c 


o 






o 


Oj 












Q) 




-D 




QJ 




XI 




(tJ 


in 


o> 




c 


o 


-H 


n: 







4-> 

•H 
M 

x: 
o 

CO 



CO 

4-> 
+-> 
■H 

M 
X2 

U 
CO 







rH 




CO 








to 




0) 


-p 










Q) a 






4-) 




to 


Q) -P 




to X) 




O -H 


C 






TJ M 


MH 


D <D 


a 




as 












O 


c 




•H --^ 




0) t-H 






<D 


rH O 


C 


X a: 


-H 




Q) 






CO to 


a 




o 




> 







C E 




CO (U — - 




C r~i 




•iH 1 




to d) 




O 




4J C CO 




c o 








£ -P 








<y -P E 




V) X 




O -H T3 




-H cr» C 




T> ^^ a 


to 


D <D 


•iH 


< -O 4-> 






>H 


to -H g 




0) 15 (T3 


X 


C -P 




-H ^ CO 


Q) 








a 


i-H O -O 


<D 


X x: c 


-P 


03 Cu <D 


CCJ 






CO to 


c 


D m o 


o 


< -o S -i^ 



CTi 


4—' 




4-* 




-H 




M 


c: 


x; 




u 


CO 


CO 






to 




0) to 




-O <D 




4-> 




Cn C 




C 0) 




O B 








a> a> 




X to 




o o 




H -H 




<U T? 




^ 3 




CO <: 





SUBSTITUTE SHEET (RULE 26) 



wo 00/11647 



13/13 



PCT/EP99/06081 



CSJ 



CM 



U 
•H 





4J r 

•H 




U 








o 




to 


c 








<0 ' — 








>t * — 




4-> CO 








C/3 ^ 




c 




O W 




•H <D 




4-J 4-> 




<I3 C 




C <D 




<D g 












-id W 




c o 




O -H 












to rtj 




<u 




to 
















U CO 




o <y 








C C! 




<D 0) 








^ o 








S to 




c 




M O 




O -H 




T3 








C C 




0) <u 




to +J 








.-H M 




c c 




•H O 













-H 








M 
















o 








to 




a 
















to 


+ 






Oi 








>i 






to 


+J 


CO 




<D 






to 


< 




-o 


c 








o 


to 




to 


•H 


<u 






4-) 








<0 


c 




u 


c 


0) 






<u 


B 




<u 




o> 




M 




<u 




0) 




to 




CQ 


c 


o 






o 






c 








re 


to 


< 




<i> 


(U 










es 




in 
















M 


CO 






O 


0) 




o 


*w 






-H ~ 


C 


d 






(U 


0) 




4j 


.H 






-H CO 


fH 






0) < 


0) 


i 




M 




su 




to 

(0 o 


M 


o 






<U 






-o c 


TJ 


at 




0) 


C 


c 






<u 


<i; 




^3 0) 


to 


+J 




M to 


<u 


<o 




0) o 










c 


c 




»-» -o 


•H 


o 




5 


Cx3 







to 

to 
a; 

u 

OJ 
M 
OJ 
CQ 

a 
<u 

0) 
T3 
1^ 
O 
> 

o 



(0 
0) 



CO 

< 

to 
<v 

4-) 

c 

<D 

B 
Oy 

0) 

to 
O 



C 
U 



















to 




< 








C 


C 




a> 








c 








CO 






<u 




C 


-u» 


0) 


G 


x( 


<D 


o 








<l) 




o 






<u 


-o 










c 




Cn 


M 








-o 


a> 










C 


x: 


D 


o 




u 


a; 










-H 


0) 


U4 


•H 




-o 




o 




CO 


tj 


O 




u 






eg 








no 


CQ 


to 






M 















4- 


4—' 




•rH 




Jh 


CO <L) 


JC 




CJ 


(-• 
*-> 


CO 








r\ 

^ \j 








- f A 












CO 
















<U C 












<D *0 








tT» C 




QJ O 


























4 J 


to 


4J 




*•**( 










to 


U 


c c 


CO 


0) o 




B ♦H 








o m 








C 0) 








^ <0 












s o 












0) to 












c 




o • 
























< -H 






4J 
-H 

x: 
u 
to 












cnco 




c< 








1^ to 




0) 0) 




4-» -u> 






00 


•H tU 
















x: to 




o o 


M 








o 




CO 










to to 




D <U 









c 









•r-v 






tn CO 




:3 




M 


CO 


0) 


tl) 


+J 




.H 


C 


•H 


o 




B 




Cn 


0) 


0) 


x: 


to 


u 


O 




•H 


T3 


M 


:3 


^ < 






w 


to 









SUBSTITUTE SHEET (RULE 26) 



INTERNATIONAL SEARCH REPORT 



C,(Continuat(on) DOCUMENTS CONSfOEREO TO BE RELEVANT ~~ 


Inti .ional Application No 

PCT/EP 99/06081 




Citation of document, with indicatioawhere appropnate, o( the relsvani passages 


Relevant to ctaim No. 


A 


OETTWEILER H ET AL: "Concatenation rules 
for demi syllable speech synthesis" 
PROCEEDINGS OF IEEE INTERNATIONAL 
CONFERENCE ON ACOUSTICS, SPEECH, AND 
SIGNAL PROCESSING (ICASSP '85), TAMPA, FL, 
USA. 

vol. 2, 26 - 29 March 1985, pages 
752-755, XP002128522 
IEEE, New York, NY, USA 
the whole document 




1-3, 

14-16. 

28-30, 

39-41, 

51-53, 

55-61 


A 


US 5 659 664 A (KAJA JAAN) 

19 August 1997 (1997-08-19) 

cited in the application 

column 3, line 44 -column 4, line 33 




1-61 


A 


EP 0 351 848 A (SHARP KK) 
24 January 1990 (1990-01-24) 
cited in the application 
abstract 




1-61 


A 


uL2x^^^ ^ (FACULTE POLYTECHNIOUE DE 
..MOWS) 17 December 1997 (1997-12-17) 
cited in the application 
column 8, line 19 -column 9, line 23 




1-61 


A 
A 


US 5 524 172 A (HAMON CHRISTIAN) 
4 June 1996 (1996-06-04) 
cited in the application 
abstract; figures 3A,3B,3C,3D 

WO 95 30193 A (MOTOROLA INC) 
9 November 1995 (1995-11-09) 
cited in the application 
abstract 




1-61 
1-61 



INTERNATIONAL SEARCH REPORT 



(nt tional Application No 

PCT/EP 99/06081 



A. CLASSIFICATION OF SUBJECT MATTER 

IPC 7 G10L13/06 



According to Iniemational Pateni Classification (IPQ or to both natronal cla ssitication and IPC 
B; FIELDS SEARCHED 



Minimum documontation searched (classification system followed by classification symbols) 
IPC 7 GIOL 



Documentation searched other than minimum documentation to the extent that such documents are included in the fields 



searched 



Electronic data base consulted during the international searc*) (name of data base and. where practical, search terms used) " 



C. DOCUMENTS CONSIDERED TO BE RELEVANT 



Category 



Citation of document, with indication, where appropriate. o( the relevant passages 



Relevant (o claim No. 



YIOURGALIS N ET AL: "A TtS system for the 

Greek language based on concatenation of 

formant coded segments" 

SPEECH COMMUNICATION, NL, ELSEVIER SCIENCE 

PUBLISHERS, AMSTERDAM, 

vol. 19, no. 1, page 21-38 XP004013506 

ISSN: 0167-6393 
page 22 -page 32 



-/- 



1-3, 

14-16, 

28-30, 

39-41, 

51-53, 

55-61 



)( I Further documents are listed in the continuation of box C. * 



** Special categories of cited documents : 

"A" document defining the general state of the art which is not 
considered to be of particular relevance 

"E" eartier document but published on or after the international 
filing date 

V document which may throw doubts on priority claim(s) or 
which is cited to establish the publication date of another 
citation or other special reason (as specified) 

"0" docunnent referring to an oral disclosure, use. exhibition or 
other means 

"P" document published prior to the international filing date but 
later than the priority date claimed 

Date of the actual completion oi the international search 



24 January 2000 

Name and mailing address of the ISA 

European Patent Oftlce, P.B. 5818 Patentlaan 2 
NL - 2280 HV Rliswijk 
Tel. ('♦•31-70) 340-2040. Tx. 31 651 epo ni, 




Patent family members are listed in annex. 



'T later document published after the international filing date 
or prionty date and not in conflict with the application but 
cited to understand the principle or theory undertvina the 
invention ^ 

"X" document of particular relevance: the claimed invention 
cannot be considered novel or cannot be considered to 
involve an inventive step when the document is taken alone 

"Y" document of particular relevance; the claimed invention 

cannot be considered to involve an inventive step when the 
document is combined with one or more other such docu- 
ments, such combination being obvious to a person skilled 
in the art. 

'*&'* document member of the same patent family 
Date of mailing of the international search report 



04/02/2000 



Authorized officer 



INTERNATIONAL SEARCH REPORT 

Information on patent family members 



tnte ona( Application No 

PCT/EP 99/06081 



Patent document 




Publication 




Patent tamjiy 




Publication 


cited in search report 




date 




member{s) 




date 


us 5659664 


A 


19-08-1997 


SE 


469576 


B 


26-07-1993 








DE 


69318209 


D 


04-06-1998 








DE 


69318209 


T 


27-08-1998 








CP 

tr 


0561752 


A 


22-09-1993 








bb 


2265287 A,B 


22-09-1993 








ID 

Jr 


£lf\A 1 C C 7 


A 


15-02-1994 








cr 


y^iUUol / 


A 


26-07-1993 


EP 0351848 


A 


24-01-1990 


JP 


lyyy loo 


r 


08-12-1995 








JP 


i^iu Oil jyy 


A 

A 


02-02-1990 








JP 


/uz/ jy / 


n 
D 


29-03-1995 








nc 
Uh 


zroQI COCO 

Doy Ibobo 


n 
U 


23-06-1994 








nc 
Ut 


68915353 


T 


20-10-1994 








1 IC 


5111505 


A 


05-05-1992 


FP 0ftT^1R4 


A 
ry 


1 7—1 C>— 1 QQ7 


Q C 
DC 


1U1033O 


A 


02-06-1998 




A 
M 




CD 

r K 


ZoJbloj 


A 


09-03-1990 








LA 


1 '1 o /! £ 

1 ji:4o7Q 


A 


23-11-1993 








Ut 


boy lyoj/ 


r\ 
U 


12-01-1995 








DE 


ooyiyoo/ 


T 

T 


20-07-1995 








DK 


107390 


A 


30-05-1990 








CD 

tr 


0363233 


A 


11-04-1990 








c c 


2065406 


T 


16-02-1995 








t tn 
WU 


9003027 


A 


22-03-1990 








1 D 

Jr 


3501896 


T 


25-04-1991 








1 i c 


5327498 


A 


05-07-1994 




A 


uy-i 1— lyyo 


A 1 1 

AU 


675389 


B 


30-01-1997 








AU 


2104095 


A 


29-11-1995 








CA 


2161540 


A 


09-11-1995 








CN 


1128072 


A 


31-07-1996 








EP 


0710378 


A 


08-05-1996 








FX 


955608 


A 


22-11-1995 








JP 


8512150 


T 


17-12-1996 








US 


5668926 


A 


16-09-1997 



Form PCT/ISA/210 {patent family annex) (July 1992) 



INTERNATIONALER RECHERCHENBERICHT 



Int, .tionales Aktenzeichen 

PCT/EP 99/06081 



A. KLASSIFIZIERUNG OES ANMELOUNGSGEGENSTANOES 

IPK 7 G10L13/06 

Nach der Internationalen Patentklassitikation (IPK) Oder nach der nationalen Klassifikation und der IPK 

B. RECHERCHIERTE GEBIETE 

Recherchierter Mindestprutstoff {Ktassifikatlonssystem und Klassitikationssymbole ) 

IPK 7 GIOL 



Recherchtene aber nicht rum Mindestprufstoft geflorende Veroftennichungen. soweii diese unter die rechercnierten Gebiete (alien 



Wahrend der internationaten Recherche konsultrerto elekironisghe Oatenbank (Name der Oatenbank und evtl. verwendete Suchbegrifie) 



C. ALS WESENTLICH ANGESEHENE UNTERLAGEN 



Kategorre' Bezeichnung der Veroffentlichung. soweit ertorderiich unter Angabe der in Betracht kommenden Teile 



Betr. Anspnjch Nr. 



YIOURGALIS N ET AL: "A TtS system for the 

Greek language based on concatenation of 

formant coded segments" 

SPEECH COMMUNICATION, NL, ELSEVIER SCIENCE 

PUBLISHERS, AMSTERDAM, 

Bd. 19, Nr. 1, Selte 21-38 XP004013506 

ISSN: 0167-6393 
Seite 22 -Seite 32 

-/-- 



1-3, 

14-16, 

28-30, 

39-41, 

51-53, 

55-61 



)( Weitere Veroffenttichungen sind der Fortsetzung von FoW C zu 
entnehmen 



Siehe Anhang Patentfamilie 



' Besondore Kategorien von angegebenon Veroffentlichungen 

"A" Verdtfentltchung. die den allgemeinen Stand der Technik deliniert. 
aber nicht als besonders bedeutsam anzusehen ist 
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VERTRAG UBER DIE INTERNATIONALE ZUSAM 



09/76314^ 

IV^MaRBEIT AUF DEM 



GEBIET DES PATENTWESEN$„ 

PCT 

INTERNATIONALER VORLAUFIGER PRUFUNGSBERICHT 

(Artikel 36 und Regel 70 PCT) 




Aktenzeichen des Anmelders oder Anwalts 
EP-82 972/PC 


siehe Mitteitung uber die Ubersendung des internationalen 
WEITERES VORGEHEN vorlaufigen Priifungsbericht (Formblatt PCT/IPEA/416) 


Internationales Aktenzeichen 
PCT/EP99/06081 


Internationales Ar\me\cie6atum( Tag/Monat/Jahr) 
19/08/1999 


Prioritatsdatum (Tag/Monat/Tag) 
19/08/1998 



Internationale Patentklassification (IPK) oder nationale Klassifikation und IPK 
G10L13/06 



Anm elder 

BUSKIES, Christoph 



1 . Dieser internationale vorlaufige Prufungsbericht wurde von der n\\X der internationals vorlaufigen Prufung beauftragte 
Behorde erstellt und wird dem Anmelder gemaB Artikel 36 ubermittelt. 



2. Dieser BERICHT umfaBt insgesamt 6 Blatter einschlieBlich dieses Deckblatts. 



S Au3erdem liegen dem Bericht ANLAGEN bei; dabei handelt es sich urn Blatter mit Beschreibungen, Anspruchen 
und/oder Zeichnungen, die geandert wurden und diesem Bericht zugrunde liegen, und/oder Blatter mit vor dieser 
Behorde vorgenommenen Berichtigungen (siehe Regel 70.16 und Abschnitt 607 der Verwaltungsrichtlinien zum PCT). 

Diese Aniagen umfassen insgesamt 14 Blatter. 



3. Dieser Bericht enthalt Angaben zu folgenden Punkten: 
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□ 


III 




IV 


□ 


V 




VI 


□ 


VII 




VIII 





Grundlage des Berichts 
Prioritat 

Keine Erstellung eines Gutachtens uber Neuheit, erfinderische Tatigkeit und gewerbliche Anwendbarkeit 
Mangelnde Einheitlichkeit der Erfindung 

Begrundete Feststellung nach Artikel 35(2) hinsichtlich der Neuheit, der erfinderische Tatigkeit und der 
gewerbliche Anwendbarkeit; Unterlagen und Erklarungen zur Stutzung dieser Feststellung 

Bestimmte angetuhrte Unterlagen 

Bestimmte Mangel der internationalen Anmeldung 

Bestimmte Bemerkungen zur internationalen Anmeldung 





Datum der Einreichung des Antrags 
17/03/2000 


Datum der Fertigslellung dieses Berichts 
02.10.2000 


Name und Postanschrift der mit der internationalen vorlaufigen 
Prufung beauftragten Behorde: 

^ Europaisches Patentamt 
/ftH D-80298 Munchen 

Tel. 89 2399 - 0 Tx: 523656 epmu d 
Fax: +49 89 2399 - 4465 


Bevollmachtigter Bediensteter 

De Vos, L f J 

Tel. Nr. +49 89 2399 2048 



Formblatt PCT/IPEA/409 (Deckblatt) (Januar 1994) 



INTERNATIONALER VORLAUFIGER 
PRUFUNGSBERICHT 



Internationales Aktenzeichen PCT/EP99/0608 1 



I. Grundlage des Berichts 

1 . Dieser Bericht wurde erstellt aut der Grundlage (Ersatzblatter, die dem Anmeldeamt auf eine Aufforderung nach 
Artikel 14 bin vorgelegt warden, gelten im Rahmen dieses Berichts als "ursprunglich eingereicht" and sind ihm 
nicht beigefugt, weil sie keine Anderungen enthalten.): 

Beschreibung, Seiten: 

1-22 ursprungliche Fassung 

Patentanspruche, Nr.: 

1 -68 eingegangen am 24/08/2000 mit Schreiben vom 24/08/2000 

Zeichnungen, Blatter: 

1/13-13/13 ursprungliche Fassung 

2. Aufgrund der Anderungen sind folgende Unterlagen fortgefallen: 

□ Beschreibung, Seiten: 

□ Anspruche, Nr.: 

□ Zeichnungen, Blatt: 

3. □ Dieser Bericht ist ohne Berucksichtigung (von einigen) der Anderungen erstellt worden, da diese aus den 

angegebenen Grunden nach Auffassung der Behorde uber den Offenbarungsgehalt in der ursprunglich 
eingereichten Fassung hinausgehen (Regel 70.2(c)): 

4. Etwaige zusatzliche Bemerkungen: 

III. Keine Erstellung eines Gutachtens iiber Neuheit, erfmderische Tatigkeit und gewerbliche Anwendbarkelt 

Folgende Teile der Anmeldung wurden nicht daraufhin gepruft, ob die beanspruchte Erfindung als 

neu, auf ertinderischer Tatigkeit beruhend (nicht offensichtlich) und gewerblich anwendbar anzusehen ist: 

□ die gesamte intemationale Anmeldung. 
H Anspruche Nr. 58-66. 

Begrundung: 



Formblatt PCT/IPEA/409 (Felder l-VIM, Blatt 1 ) (Januar 1994) 



INTERNATIONALER VORLAUFIGER 
PRUFUNGSBERICHT 



Internationales Aktenzeichen PCT/EP99/06081 



□ Die gesamte Internationale Anmeldung. bzw. die obengenannten Anspruche Nr. beziehen sich aut den 
nachstehenden Gegenstand, fur den keine intemationaie vorlaufige Prufung durchgefuhrt werden braucht 
{genaue Angaben): 



K Die Beschreibung, die Anspruche oder die Zeichnungen {machen Sie hierzu nachstehend genaue Angaben) 
Oder die obengenannten Anspruche Nr. 58-66 sind so unklar. daG kein sinnvolles Gutachten erstellt werden 
konnte {genaue Angaben): 

siehe Beiblatt 

□ Die Anspruche bzw. die obengenannten Anspruche Nr. sind so unzureichend durch die Beschreibung 
gestutzt, daB kein sinnvolles Gutachten erstellt werden konnte. 

□ Fur die obengenannten Anspruche Nr. wurde kein intemationaler Recherchenbericht erstellt. 



V. Begrundete Feststellung nach Artikel 35(2) hinstchtltch der Neuheit, der erfinderischen Tatigkett und der 
gewerblichen Anwendbarkett; Unterlagen und Erklarungen zur Stutzung dieser Feststellung 

1. Feststellung 



Neuheit (N) 


Ja: 


Anspruche 


1-57, 67-68 




Nein: 


Anspruche 




Erfinderische Tatigkeit (ET) 


Ja: 


Anspruche 


1-57, 67-68 




Nein: 


Anspruche 




Gewerbliche Anwendbarkeit (GA) 


Ja: 


Anspruche 


1 -57, 67-68 




Nein: 


Anspruche 





2. Unterlagen und Erklarungen 
siehe Beiblatt 

VII. Bestimmte Mangel der internationalen Anmeldung 

Es wurde festgestellt, daB die intemationaie Anmeldung nach Form oder Inhalt tolgende Mangel aufweist: 
siehe Beiblatt 

VIII. Bestimmte Bemerkungen zur internationalen Anmeldung 

Zur Klarheit der Patentansp ruche, der Beschreibung und der Zeichnungen oder zu der Frage, ob die Anspruche 
in vollem Umfang durch die Beschreibung gestutzt werden, ist tolgendes zu bemerken: 

siehe Beiblatt 



Fomnbtatt PCT/IPEA/409 (Felder l-VIII. Blatt 2) (Januar 1994) 



INTERNATIONALER VORLAUFIGER Internationales Aktenzeichen PCT/EP 99/06081 
PRUFUNGSBERICHT - BEIBLATT 



III. Keine Erstellung ernes Gutachtens 

1 . Der unabhangige Patentanspruch 58 und die von diesem Anspruch abhangigen 
Anspruche 59-66 beanspruchen einen Datenspeicher, welcher Audiosegmente 
enthalt. Diese Audiosegmente werden jedoch nur durch das zu erreichende 
Ergebnis gekennzeichnet, namlich, daB sie geeignet sein mussen, synthetisierte 
akustische Daten unter Verwendung des Verfahrens nach Anspruch 1, der 
Vorrichtung nach Anspruch 16 oder des Datentragers nach Anspruch 33 zu 
erzeugen. 

Da hierdurch keine Merkmale der Audiosegmente im Anspruch festgelegt werden 
(R. 6.3.a PCT), ist der Anspruch nicht klar (Art. 6 PCT), s. auch die Richtlinien fur 
die PCT-Prufung, III-4.7. 

2. Folglich werden die Anspruche 58-66 gemaB Art. 34.4(a)(ii) PCT von der 
Erstellung eines Gutachtens ausgenommen. 

V. Begrundete Feststellung nach Art. 35(2) PCT 

3. Die vorliegende Anmeldung befaBt sich mit Sprachsynthese. Insbesondere befaBt 
sie sich mit datenbasierten Systemen, bei denen die saubere Konkatenation der 
einzelnen im Speicher vorhandenen Sprachmusterstucke sich als sehr kritisch fur 
die erreichte Synthesequalitat erweist. 

Der nachste Stand der Technik ist im Dokument "A TtS system for the Greek 
language based on the concatenation of formant coded segments", Yourgalis et. 
al., Speech Communication 19(1996), S. 21-38 offenbart. Dieses Dokument zeigt, 
daB durch entsprechende Simulationsberechnungen der Koartikulationseffekt 
berucksichtigt werden kann, und daB je nach Art der Phoneme andere 
Konkatenationsweisen verwendet werden konnen, die jeweils in ihrer Klasse 
bessere Ergebnisse liefern konnen als die anderen zur Auswahl stehenden 
Methoden. 

Das technische Problem, das in der vorliegenden Anmeldung zu losen ist, ist das 



Fomnblatt PCT/Beiblatt/409 (Blatt 1) (EPA-April 1997) 



INTERNATIONALER VORLAUFIGER 
PRUFUNGSBERICHT - BEIBLATT 



Internationales Aktenzeichen PCT/EP99/06081 



Finden einer Alternative zu den im nachsten Stand der Technik vorhandenen 
Losungsansatzen. 

Hierzu wird die Koartikulationsproblematik vollstandig datenbasiert angegangen. 
Der zu verwendende Bereich des zeitlich nachgelagerten Audiosegments {an das 
bisherige Ergebnis hinten anzuhangen) endet hierbei mit dem auf den zuerst 
verwendeten Soloartikulationsbereich folgenden Koartikulationsbereich dieses 
zeitlich nachgelagerten Audiosegments. 

Welter wird nicht die Weise der Konkatenation, sondern der Moment (Zeitpunkt) 
der Konkatenation in der vorliegenden Anmeldung in Abhangigkeit der 
Eigenschaften angrenzenden Bereiche situationsabhangig bestimmt. 

Dies wird beansprucht in unabhangigen Verfahrens-. Vorrichtungs- und 
Programmdatentrager-Anspruchen 1, 16 und 33. 

Die Verwendung der in Anspruch 1 aufgelisteten Schritte wird somit in Dokument 
D1 weder veroffentlicht noch nahegelegt. Keines der ubrigen Dokumente des 
Internationalen Recherchenberichtes enthalt eine Andeutung, die den Fachmann 
dazu veraniassen wurde, den Stand der Technik in Dokument D1 durch die 
Merkmale des Anspruchs 1 zu ersetzen. 

Anspruch 1 ist somit neu und beruht auf einer erfinderischen Tatigkeit im Sinne 
des Art. 33(2)-(3) PCT. 

Dies gilt ebenfalls fiir den unabhangigen Vorrichtungsanspruch 16 und den 
unabhangigen Programmdatentrageranspruch 33. Gleiches gilt fiir den 
unabhangigen Erzeugnisanspruch 47 und fiir den unabhangigen 
Erzeugnisdatentrageranspruch 67, sofern dieser sich nicht auf den unklaren 
Anspruch 58 bezieht. Desweiteren gilt dies auch fiir die sich auf diese 
unabhangigen Anspruche beziehenden abhangigen Anspruche 2-15, 17-32, 34- 
46, 48-57 und 68 (sofern Anspruch 67 sich nicht auf Anspruch 58 bezieht), da 
diese keinen Widerspruch zu den unabhangigen Anspruchen verursachen, auf 
welche sie sich beziehen. 



Formblatt PCT/Beiblatt/409 (Blatt 2) (EPA-April 1997) 



INTERNATIONALER VORLAUFIGER 
PRUFUNGSBERICHT - BEIBLATT 



Internationales Aktenzeichen PCT/EP99/06081 



VII. Bestimmte Mangel der Internationalen Anmeldung. 

4. Im Widerspruch zu den Erfordernissen der Regel 5.1 a) ii) PCT werden in der 
Beschreibung weder der in dem Dokument D1 offenbarte einschlagige Stand der 
Technik noch dieses Dokument angegeben. 

VIII. Bestimmte Bemerkungen zur Internationalen Anmeldung. 

5. In der Beschreibung, S. 9, im Satz von Z. 32 bis Z. 37, fehit mindestens ein Wort. 
Der Satz ist dadurch nicht verstandlich. Der Prufer nimmt an, daB "bestimmt" auf 
Z. 37 durch "bestimmt wird" hatte ersetzt werden sollen. 

6. Zwischen S. 10, Z. 21-30 und S. 12, Z, 14-20 einerseits, und S. 17, Z. 24-30 und 
S. 18, Z. 25-34 andererseits, herrscht eine gewisse Unstimmigkeit. In den 
erstgenannten Passagen werden Audiosegmentbereiche bevorzugt, welche mit 
der Wiedergabe eines dynamischen Lauts beginnen, wahrend in den 
letztgenannten Textabschnitten genau gegenteilig das Anfangen mit einem 
statischen Laut bevorzugt wird. Dem Leser bleibt in diesem Fall die Frage, in 
welchem der beiden Fallen der (in beiden Fallen) angedeutete Vorteil eines 
geringeren Aufwandes auch tatsachlich vorhanden ist. Diese Unklarheit hatte 
beseitigt werden mussen. 

7. Die verwendeten Nummern der Anspruche in der Beschreibung stimmen nicht mit 
der tatsachlichen Numerierung Ciberein. 



Fomnblatt PCT/Beiblatt/409 (Blatt 3) (EPA- April 1997) 



24-08-2000 ^^ 972/PCT EP 009906081 
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Anspruche 

1. Verfahren zur koartikulationsgerechten Konkatenation von Audiosegmenten, um syn- 
thetisierte akustische Daten zu erzeugen, die eine Folge konkatenierter Laute wiederge- 
5 ben, mit folgenden Schritten: 

- Auswahl von wenigstens zwei Audiosegmenten, die Bereiche enthalten, die jeweils el- 
nen Teil eines Lautes oder einen Teil der Lautfolge wiedergeben, aufweist, 
gekennzeichnet durch die Schritte: 

- Festlegen eines zu verwendenden Bereiches eines zeitlich vorgelagerten Audiosegments, 
10 - Festlegen eines zu verwendenden Bereiches eines zeitlich nachgelagerten Audioseg- 

ments, der zeitlich mIt dem zeitlich nachgelagerten Audiosegment beginnt und mit dem 
auf den zuerst verwendeten Soloartikulationsbereich folgenden Koartikulationsbereich des 
zeitlich nachgelagerten Audiosegments endet, 

- wobei die Dauer und Lage der zu verwendenden Bereiche in Abhangigkeit der vor- und 
15 nachgelagerten Audiosegmente bestimmt wird, und 

- Konkatenieren des festgelegten Bereiches des zeitlich vorgelagerten Audiosegments mit 
dem festgelegten Bereich des zeitlich nachgelagerten Audiosegments, indem der Moment 
der Konkatenation in Abhangigkeit von Eigenschaften des verwendeten Bereiches des 
zeitlich nachgelagerten Audiosegments in einen Bereich gelegt wird, der zeitlich unmittel- 

20 bar vor dem verwendeten Bereich des zeitlich nachgelagerten Audiosegments beginnt und 
mit diesem endet 



2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daB 

- der Moment der Konkatenation in einen Bereich gelegt wird, der in der Umgebung der 
25 Grenzen des zuerst zu verwendenden Soloartikulationsbereichs des zeitlich nachgelager- 
ten Audiosegments liegt, wenn dessen zu verwendender Bereich am Anfang einen stati- 
schen Laut wiedergibt, und 

- ein zeitlich hinterer Bereich des zu verwendenden Bereiches des zeitlich vorgelagerten 
Audiosegments und ein zeitlich vorderer Bereich des zu verwendenden Bereiches des 

30 zeitlich nachgelagerten Audiosegments mit geeigneten Ubergangsfunktionen bearbeitet 
und uberlappend addiert werden (Crossfade), wobei die Ubergangsfunktionen und die 
Lange eines Uberlappungsbereichs der beiden Bereiche in Abhangigkeit der zu konka- 
tenierenden Audiosegmente bestimmt werden. 
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3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, da6 

- der Moment der Konkatenation in einen Bereich gelegt wird, der zeitlich unmittelbar vor 
dem zu verwendenden Bereich des zeitlich nachgelagerten Audiosegments liegt, wenn 
dessen verwendeter Bereich am Anfang einen dynamischen Laut wiedergibt, und 
5 - ein zeitlich hinterer Bereich des zu verwendenden Bereiches des zeitlich vorgetagerten 
Audiosegments und ein zeitlich vorderer Bereich des zu verwendenden Bereiches des 
zeitlich nachgelagerten Audiosegments mit geeigneten Ubergangsfunktionen bearbeitet 
und nicht uberlappend verbunden werden (Hardfade), wobei die Ubergangsfunktionen in 
Abhangigkeit der zu synthetisierenden akustischen Daten bestimmt werden. 

10 

4. Verfahren nach einem der Anspruche 1 bis 3, dadurch gekennzeichnet, da6 

fur einen Laut oder einen Teil der Folge konkatenierter Laute am Anfang der konka- 
tenierten Lautfolge ein Bereich eines Audiosegmentes ausgewahit wird, so daB der An- 
fang des Bereiches die Eigenschaften des Anfangs der konkatenierten Lautfolge wieder- 
15 gibt 

5. Verfahren nach einem der Anspruche 1 bis 4, dadurch gekennzeichnet, daB fur einen 
Laut Oder einen Teil der Folge konkatenierter Laute am Ende der konkatenierten Lautfol- 
ge ein Bereich eines Audiosegmentes ausgewahit wird, so daB das Ende des Bereiches die 

20 Eigenschaften des Endes der konkatenierten Lautfolge wiedergibt. 

6. Verfahren nach einem der Anspruche 1 bis 5, dadurch gekennzeichnet, daB 

die zu synthetisierenden Sprachdaten in Gruppen zusammengefaBt werden, die jeweils 
durch ein einzeines Audiosegment beschrieben werden. 

25 

7. Verfahren nach einem der Anspruche 1 bis 6, dadurch gekennzeichnet, daB 

fur den zeitlich nachgelagerten Audiosegmentbereich ein Audiosegmentbereich gewahit 
wird, der die groBte Anzahl aufeinanderfolgender Teile der l-aute der Lautfolge wieder- 
gibt, um bei der Erzeugung der synthetisierten akustischen Daten die kleinste Anzahl von 
30 Audiosegmentbereichen zu verwenden. 

8. Verfahren nach einem der Anspruche 1 bis 7, dadurch gekennzeichnet, daB 

eine Bearbeitung der verwendeten Bereiche einzelner Audiosegmente mit Hilfe geeigneter 
Funktionen in Abhangigkeit von Eigenschaften der konkatenierten Lautfolge durchgefuhrt 
35 wird, wobei die Eigenschaften u.a, eine Veranderung der Frequenz, der Dauer, der Am- 
plitude Oder des Spektrums sein konnen. 
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9. Verfahren nach einem der Anspruche 1 bis 8, dadurch gekennzeichnet, daB 

eine Bearbeitung der verwendeten Bereiche anzelner Audiosegmente mit Hilfe geeigneter 
Funktionen in einem Bereich durchgefuhrt wird, in dem der Moment der Konkatenation 
liegt, wobei die Funktionen u.a. eine Veranderung der Frequenz, der Dauer, der Amplitu- 
5 de Oder des Spektrums betreffen konnen. 

10. Verfahren nach einem der Anspruche 1 bis 9, dadurch gekennzeichnet, daS 

der Moment der Konkatenation an Stelien in den zu verwendenden Bereichen des zeitlich 
vorgelagerten und/oder des zeitlich nachgelagerten Audiosegments gelegt wird, an denen 
10 die beiden verwendeten Bereiche hinsichtlich einer oder mehrerer geeigneter Eigen- 
schaften ubereinstimmen, wobei die Eigenschaften u.a. Nullstellen, Amplitudenwerte, 
Steigungen, Ableitungen beliebigen Grades, Spektren, Tonhohen, Amplitudenwerte in 
einem Frequenzbereich, Lautstarke, Sprachstil, Sprachemotion, oder andere im Lautklas- 
sifizierungsschema betrachtete Eigenschaften sein konnen. 

15 

11. Verfahren nach einem der Anspruche 1 bis 10, dadurch gekennzeichnet, da(3 

- die Auswahl der verwendeten Bereiche einzelner Audiosegmente, deren Bearbeitung, 
deren Variation sowie deren Konkatenation zusatzlich unter Verwendung heuristischen 
Wissens durchgefuhrt wird, das durch ein zusatzlich durchgefuhrtes heuristisches Verfah- 

20 ren gewonnen wird. 

12. Verfahren einem der Anspruche 1 bis 11, dadurch gekennzeichnet, daB 

- die zu synthetisierenden akustischen Daten Sprachdaten und die Laute Phone sind. 

25 13. Verfahren nach einem der Anspruche 2 bis 12, dadurch gekennzeichnet, daB 

- die statischen Laute Vokale, Diphtonge, Liquide, Vibranten, Frikative und Nasale umfas- 
sen. 

14. Verfahren nach einem der Anspruche 3 bis 13, dadurch gekennzeichnet, daS 

30 - die dynamischen Laute Plosive, Affrikate, Glottalstops und geschlagenen Laute umfas- 
sen. 

15. Verfahren nach einem der Anspruche 1 bis 14, dadurch gekennzeichnet, daB 

- eine Umwandlung der synthetisierten akustischen Daten in akustische Signale und/oder 
35 Sprachsignale durchgefuhrt wird. 
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16. Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten, um 
synthetisierte akustische Daten zu erzeugen, die eine Folge von Lauten wiedergeben, mit: 

- einer Datenbank (107), in der Audiosegmente gespeichert sind, die jeweils Telle eines 
Lautes Oder Teile einer Folge von (konkatenierten) Lauten wiedergeben 

5 - und/oder einer beliebigen vorgeschalteten Syntheseeinrichtung (108), die Audioseg- 
mente liefert, 

- einer Einrichtung (105) zur Auswahl von wenigstens zwei Audiosegmenten aus der Da- 
tenbank (107) und/oder der vorgeschalteten Syntheseeinrichtung (108), und 

- einer Einrichtung (111) zur Konkatenation der Audiosegmente, dadurch gekennzeichnet, 
10 daB die Konkatenationseinrichtung (111) geeignet ist, 

- einen zu verwendenden Bereiches eines zeitlich vorgelagerten Audiosegments zu defi- 
nieren, 

- einen zu verwendenden Bereiches eines zeitlich nachgelagerten Audiosegments in ei- 
nem Bereich zu definieren, der mit dem zeitlich nachgelagerten Audiosegment beginnt 

15 und zeitlich nach einem auf den zuerst verwendeten Soloartikulationsbereich folgenden 
Koartikuiationsbereich des zeitlich nachgelagerten Audiosegmentes endet, 

- die Dauer und Lage der verwendeten Bereiche in Abhangigkeit der vor- und nachgela- 
gerten Audiosegmente zu bestimmen, und 

- den verwendeten Bereich des zeitlich vorgelagerten Audiosegments mit dem verwen- 
20 deten Bereich des zeitlich nachgelagerten Audiosegments durch Definition des Moment 

der Konkatenation in Abhangigkeit von Eigenschaften des verwendeten Bereiches des 
zeitlich nachgelagerten Audiosegments in einem Bereich zu konkatenieren, der zeitlich 
unmittelbar vor dem verwendeten Bereich des zeitlich nachgelagerten Audiosegments 
beginnt und mit diesem endet. 

25 

17. Vorrichtung nach Anspruch 15, dadurch gekennzeichnet, daft die Konkatenationein- 
richtung (111) umfaBt: 

- Einrichtungen zur Konkatenation des verwendeten Bereiches des zeitlich vorgelagerten 
Audiosegments mit dem verwendeten Bereich des zeitlich nachgelagerten Audiosegment, 

30 dessen verwendeter Bereich am Anfang einen statischen Laut wiedergibt, in der Umge- 
bung der Grenzen des zuerst auftretetenden Soloartikulationsbereichs des verwendeten 
Bereiches des zeitlich nachgelagerten Audiosegments, 

- Einrichtungen zur Bearbeitung eines zeitlich hinteren Bereiches des verwendeten Berei- 
ches des zeitlich vorgelagerten Audiosegments und eines zeitlich vorderen Bereiches des 

35 verwendeten Bereiches des zeitlich nachgelagerten Audiosegments mit geeigneten Uber- 
gangsfunktionen, und 
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- Einrichtungen zur uberlappenden Addition der beiden Bereiche in einem von den zu 
konkatenierenden Audiosegmenten abhangenden Uberlappungsbereich (Crossfade), wo- 
bei die Ubergangsfunktionen und die Lange eines Uberlappungsbereiches der beiden Be- 
reiche in Abhangigkeit der zu synthetisierenden akustischen Daten bestimmt werden. 

5 . 

18. Vorrichtung nach Anspruch 16 oder 17, dadurcli gekennzeiclinet, da(3 die Konkatena- 
tioneinrichtung (111) umfaBt: 

- Einrichtungen zur Konkatenation des verwendeten Bereiches des zeitlich vorgelagerten 
Audiosegments mit dem verwendeten Bereich des zeitlich nachgelagerten Audiosegment, 

10 dessen verwendeter Bereich am Anfang einen dynamischen Laut wiedergibt, zeitlich un- 
mittelbar vor dem verwendeten Bereich des zeitlich nachgelagerten Audiosegments, 

- Einrichtungen zur Bearbeitung eines zeitlich hinteren Bereiches des verwendeten Berei- 
ches des zeitlich vorgelagerten Audiosegments und eines zeitlich vorderen Bereiches des 
verwendeten Bereiches des zeitlich nachgelagerten Audiosegments mit geeigneten Uber- 

15 gangsfunktionen, wobei die Ubergangsfunktionen in Abhangigkeit der zu synthetisieren- 
den akustischen Daten bestimmt werden, und 

- Einrichtungen zur nicht uberlappenden Verbindung der Audiosegmente. 

19. Vorrichtung nach einem der Anspruche 16 bis 18, dadurch gekennzeichnet, daB 

20 die Datenbank (107) Audiosegmente enthalt oder die vorgeschaltete Syntheseeinrichtung 
(108) Audiosegmente liefert, die Bereiche enthalten, die zu Beginn einen Laut oder einen 
Teil der konkatenierten Lautfolge am Anfang der konkatenierten Lautfolge wiedergibt. 

20. Vorrichtung nach einem der Anspruche 16 bis 19, dadurch gekennzeichnet, daB 

25 die Datenbank (107) Audiosegmente enthalt oder die vorgeschaltete Syntheseeinrichtung 
(108) Audiosegmente liefert, die Bereiche enthalten, deren Ende einen Laut oder einen 
Teil der konkatenierten Lautfolge am Ende der konkatenierten Lautfolge wiedergibt. 

21. Vorrichtung nach einem der Anspruche 16 bis 19, dadurch gekennzeichnet, daB 

30 die Datenbank (107) eine Gruppe von Audiosegmenten enthalt oder die vorgeschaltete 
Syntheseeinrichtung (108) Audiosegmente liefert, die Bereiche enthalten, deren Anfange 
jeweils nur einen statischen Laut wiedergeben. 

22. Vorrichtung nach einem der Anspruche 16 bis 21, dadurch gekennzeichnet, daB die 
35 Konkatenationseinrichtung (111) umfaBt: 

- Einrichtungen zur Erzeugung weiterer Audiosegmente durch Konkatenation von Berei- 
chen von Audiosegmenten, wobei die Anfange der Bereiche jeweils einen statischen Laut 
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wiedergeben, jeweils mit einem Bereich eines zeitlich nachgelagerten Audiosegment, des- 
sen verwendeter Bereich am Anfang einen dynamischen Laut wiedergibt, und 

- eine Einrichtung, die die weiteren Audiosegmente der Datenbank (107) cder der Aus- 
wahleinrlchtung (105) zufiihrt. 

5 

23. Vorrichtung nach einem der Anspruche 16 bis 22, dadurch gekennzeichnet, daB 
die Auswahleinrichtung (105) geeignet ist, bei der Auswahl der Audiosegmentbereiche 
aus der Datenbank (107) oder der vorgeschalteten Syntheseeinrichtung (108), die Audio- 
segmentbereiche auszuwahlen, die jeweils die meisten aufeinanderfolgenden Teile der 

10 konkatenierten Laute der konkatenierten Lautfolge wiedergeben. 

24. Vorrichtung nach einem der Anspruche 16 bis 23, dadurch gekennzeichnet, daB 

die Konkatenationseinrichtung (111) Einrichtungen zur Bearbeitung der verwendeten Be- 
reiche einzelner Audiosegmente mit Hilfe geeigneter Funktionen in Abhangigkeit von Ei- 
15 genschaften der konkatenierten Lautfolge aufweist, wobei die Funktionen u.a. eine Ver- 
anderung der Frequenz, der Dauer, der Amplitude oder des Spektrums betreffen konnen. 

25. Vorrichtung nach einem der Anspruche 16 bis 24, dadurch gekennzeichnet, daB 

- die Konkatenationseinrichtung (111) Einrichtungen zur Bearbeitung der verwendeten 
20 Bereiche einzelner Audiosegmente mit Hilfe geeigneter Funktionen in einem den Moment 

der Konkatenation umfessenden Bereich aufweist, wobei die Funktionen u.a. eine Veran- 
derung der Frequenz, der Dauer, der Amplitude oder des Spektrums betreffen konnen. 

26. Vorrichtung nach einem der Anspruche 16 bis 25, dadurch gekennzeichnet, daB 

25 - die Konkatenationseinrichtung (111) Einrichtungen zur Auswahl des Momentes der Kon- 
katenation bei einer Stelle in den verwendeten Bereichen des zeitlich vorgelagerten 
und/oder des zeitlich nachgelagerten Audiosegments aufweist, an denen die beiden ver- 
wendeten Bereiche hinsichtlich einer oder mehrerer geeigneter Eigenschaften uberein- 
stimmen, wobei die Eigenschaften u.a, Nullstellen, Amplitudenwerte, Steigungen, Ablei- 

30 tungen beliebigen Grades, Spektren, Tonhohen, Amplitudenwerte in einem Frequenzbe- 
reich, Lautstarke, Sprachstil, Sprachemotion, oder andere im Lautklassifizierungsschema 
betrachtete Eigenschaften sein konnen. 

27. Vorrichtung nach einem der Anspruche 16 bis 26, dadurch gekennzeichnet, daB 

35 - die Auswahleinrichtung (105) Einrichtungen zur Implementation heuristischen Wissens 
umfaSt, das die Auswahl der verwendeten Bereiche der einzelnen Audiosegmente, deren 
Bearbeitung, deren Variation sowie deren Konkatenation betrifft. 
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28. Vorrichtung nach einem der Anspriiche 16 bis 27, dadurch gekennzeichnet, daB 

- die Datenbank (107) Audiosegmente enthalt oder die vorgeschaltete Syntheseeinrich- 
tung (108) Audiosegmente liefert, die Bereiche enthalten, die jeweils wenigstens einen 

5 Tell eines Lautes bzw. Phons, einen Laut bzw. ein Phon, Teile von Lautfolgen bzw. Poly- 
phonen oder Lautfolgen bzw. Polypiione wiedergeben. 

29. Vorrichtung nach einem der Anspruche 17 bis 28, dadurch gekennzeichnet, daS 

- die Datenbank (107) Audiosegmente enthalt oder die vorgeschaltete Syntheseeinrich- 
10 tung (108) Audiosegment liefert, bei denen ein statischer Laut einem statischen Phon 

entspricht und Vokale, Diphtonge, Liquide, Vibranten, Frikative und Nasele umfaBt. 

30. Vorrichtung nach einem der Anspruche 18 bis 29, dadurch gekennzeichnet, daB 

- die Datenbank (107) Audiosegmente enthalt oder die vorgeschaltete Syntheseeinrich- 
15 tung (108) Audiosegmente liefert, bei denen ein dynamischer Laut einem dynamischen 

Phon entspricht und Plosive, Affrikate, Glottalstops und geschlagene Laute umfaSt 

31. Vorrichtung nach einem der Anspruche 16 bis 30, dadurch gekennzeichnet, daB 

- die Konkatenationseinrichtung (111) geeignet ist, um durch Konkatenation von Audio- 
20 segmenten synthetisierte Sprachdaten zu erzeugen. 

32. Vorrichtung nach einem der Anspruche 16 bis 31, dadurch gekennzeichnet, daB 

- Einrichtungen (117) zur Umwandlung der synthetisierten akustischen Daten in akusti- 
sche Signale und/oder Sprachsignale vorhanden sind. 

25 

33. Datentrager, der ein Computerprogramm zur koartikulationsgerechten Konkatenation 
von Audiosegmenten enthalt, um synthetisierte akustische Daten zu erzeugen, die eine 
Folge konkatenierter Laute wiedergeben, mit folgenden Schritten: 

- Auswahl von wenigstens zwei Audiosegmenten, die Bereiche enthalten, die jeweils ei- 
30 nen Teil eines Lautes oder einen Teil der Folge konkatenierter Laute wiedergeben, ge- 
kennzeichnet durch die Schritte: 

- Festlegen eines zu verwendenden Bereiches eines zeitlich vorgelagerten Audiosegments, 

- Festlegen eines zu verwendenden Bereiches eines zeitlich nachgelagerten Audioseg- 
ments, der zeitlich mit dem zeitlich nachgelagerten Audiosegment beginnt und mit dem 

35 auf den zuerst verwendeten Soloartikulationsbereich folgenden Koartikulationsbereich des 
zeitlich nachgelagerten Audiosegments endet. 
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- wobei die Dauer und Lage der zu verwendenden Bereiche in Abhangigkeit der vor- und 
nachgelagerten Audiosegmente bestimmt wird, und 

- Konkatenieren des festgelegten Bereiches des zeitlich vorgelagerten Audiosegments mit 
dem festgelegten Bereich des zeitlich nachgelagerten Audiosegments, indem der Moment 

5 der Konkatenation in Abhangigkeit von Bgenschaften des zu verwendenden Bereiches 
des zeitlich nachgelagerten Audiosegments in einen Bereich gelegt wird, der zeitlich un- 
mittelbar vor dem zu verwendenden Bereich des nachgelagerten Audiosegments beginnt 
und mit diesem endet 

10 34. Datentrager nach Anspruch 33, dadurch gekennzeichnet, daB das Computerprogramm 
den Moment der Konkatenation des verwendeten Bereiches des zweiten Audiosegmentes 
mit dem verwendeten Bereich des ersten Audiosegment so wahtt, daB 

- der Moment der Konkatenation in einen Bereich gelegt wird, der in der Umgebung der 
Grenzen des zuerst verwendeten Soloartikulationsbereichs des zeitlich nachgelagerten 

15 Audiosegments liegt, wenn dessen verwendeter Bereich am Anfang einen statischen Laut 
wiedergibt, und 

- ein zeitlich hinterer Bereich des verwendeten Bereiches des zeitlich vorgelagerten Au- 
diosegments und ein zeitlich vorderer Bereich des verwendeten Bereiches des zeitlich 
nachgelagerten Audiosegments mit geeigneten Obergangsfunktionen bearbeitet und 

20 uberlappend addiert werden (Crossfade), wobei Obergangsfunktionen und die Lange ei- 
nes Uberlappungsbereichs der beiden Bereiche in Abhangigkeit der zu konkatenierenden 
Audiosegmente bestimmt wird, 

35. Datentrager nach Anspruch 33 Oder 34, dadurch gekennzeichnet, daB das Computer- 
25 programm den Moment der Konkatenation des verwendeten Bereiches des zweiten Audio- 
segmentes mit dem verwendeten Bereich des ersten Audiosegmentes so wahit, daB 

- der Moment der Konkatenation in einen Bereich gelegt wird, der zeitlich unmittelbar vor 
dem verwendeten Bereich des zeitlich nachgelagerten Audiosegments liegt, wenn dessen 
verwendeter Bereich am Anfang einen dynamischen Laut wiedergibt, und 

30 - ein zeitlich hinterer Bereich des verwendeten Bereiches des zeitlich vorgelagerten Au- 
diosegments und ein zeitlich vorderer Bereich des verwendeten Bereiches des zeitlich 
nachgelagerten Audiosegments mit geeigneten Obergangsfunktionen bearbeitet und nicht 
uberlappend verbunden werden (Hardfade), wobei die Obergangsfunktionen in Abhangig- 
keit der zu konkatenierenden Audiosegmente bestimmt werden. 

35 

36. Datentrager nach einem der Anspruche 33 bis 35, dadurch gekennzeichnet, daB das 
Computerprogramm fur einen Laut oder einen Teil der Folge konkatenierter Laute am 
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Anfang der konkatenierten Lautfolge einen Bereich eines Audiosegments auswahit, des- 
sen Anfang die Eigenschaften des Anfangs der konkatenierten Lautfolge wiedergibt. 

37. Datentrager nach einem der Anspruche 33 bis 36, dadurch gekennzeichnet, daB das 
5 Computerprogramm fiir einen Laut Oder einen Teil der Folge konkatenierter Laute am 

Ende der konkatenierten Lautfolge einen Bereich eines Audiosegments auswahit, dessen 
Ende die Eigenschaften des Endes der konkatenierten Lautfolge wiedergibt. 

38. Datentrager nach einem der Anspruche 33 bis 37, dadurch gekennzeichnet, daB das 
10 Computerprogramm eine Bearbeitung der verwendeten Bereiche einzelner Audioseg- 

mente mit Hilfe geeigneter Funktionen in Abhangigkeit von Eigenschaften der Lautfolge 
durchfuhrt, wobei die Funktionen u.a. eine Veranderung der Frequenz, der Dauer, der 
Amplitude Oder des Spektrums betreffen konnen. 

15 39. Datentrager nach einem der Anspruche 33 bis 38, dadurch gekennzeichnet, daB das 
Computerprogramm fur den zeitlich nachgelagerten Audiosegmentbereich einen Audio- 
segmentbereich wahit, der die groBte Anzahl aufeinanderfolgender Teile der konka- 
tenierter Laute der Lautfolge wiedergibt, um bei der Erzeugung der synthetisierten akusti- 
schen Daten die kleinste Anzahl von Audiosegmentbereichen zu verwenden. 

20 

40. Datentrager nach einem der Anspruche 33 bis 39, dadurch gekennzeichnet, daB das 
Computerprogramm eine Bearbeitung der verwendeten Bereiche einzelner Audioseg- 
mente mit Hilfe geeigneter Funktionen in einem Bereich durchfuhrt, in dem der Moment 
der Konkatenation liegt, wobei die Funktionen u.a. eine Veranderung der Frequenz, der 

25 Dauer, der Amplitude oder des Spektrums betreffen konnen. 

41. Datentrager nach einem der Anspruche 33 bis 40, dadurch gekennzeichnet, daB Com- 
puterprogramm den Moment der Konkatenation bei einer Stelle in den verwendeten Be- 
reichen des ersten und/oder des zweiten Audiosegmentes festlegt, an denen die beiden 

30 verwendeten Bereiche hinsichtlich einer oder mehrerer geeigneter Eigenschaften uberein- 
stimmen, wobei die Eigenschaften u.a. Nullstellen, Amplitudenwerte, Steigungen, Ablei- 
tungen beliebigen Grades, Spektren, Tonhohen, Amplitudenwerte in einem Frequenzbe- 
reich, Lautstarke, Sprachstil, Sprachemotion, oder andere im Lautklassifizierungsschema 
betrachtete Eigenschaften sein konnen. 

35 

42. Datentrager nach einem der Anspruche 33 bis 41, dadurch gekennzeichnet, daB das 
Computerprogramm eine Implementation von heuristischem Wissen durchfuhrt, das die 
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Auswahl der verwendeten Bereiche der einzelnen Audiosegmente, deren Bearbeitung, 
deren Variation sowie deren Konkatenation betrifft. 

43. Datentrager nach einem der AnsprCiche 33 bis 42, dadurch gekennzeichnet, daB das 
5 Computerprogramm zur Erzeugung synthetisierter Sprachdaten geeignet ist, wobei die 

i^ute Phone sind. 

44. Datentrager nach einem der Anspruche 34 bis 42, dadurch gekennzeichnet, daS das 
Computerprogramm zur Erzeugung statischer Laute geeignet ist, wobei die statischen 

10 Laute, Vokale, Diphtonge, Liquide, Vibranten, Frikative und Nasale umfassen. 

45. Datentrager nach einem der Anspruche 35 bis 44, dadurch gekennzeichnet, daB das 
Computerprogramm zur Erzeugung dynamischer Laute geeignet ist, wobei die dynami- 
schen Laute Plosive, Affrikate, Glottalstops und geschlagene Laute 

15 

46. Datentrager nach einem der Anspruche 33 bis 45, dadurch gekennzeichnet, daB das 
Computerprogramm die synthetisierten akustischen Daten in akustische umwandeibare 
Daten und/oder Sprachsignale umwandelt 

20 47. Synthetisierte Sprachsignale, die aus einer Folge von Lauten bzw. Phonen bestehen, 
wobei die Sprachsignale erzeugt werden, Indem: 

- wenigstens zwei die Laute bzw. Phone wiedergebende Audiosegmente ausgewahit wer- 
den, und 

- die Audiosegmente durch eine koartikulationsgerechte Konkatenation verkettet werden, 
25 wobei 

- ein zu verwendender Bereich eines zeitlich vorgelagerten Audiosegments festgelegt 
wird, 

- ein zu verwendender Bereich eines zeitlich nachgelagerten Audiosegments festgelegt 
wird, der zeitlich mit dem zeitlich nachgelagerten Audiosegment beginnt und mit dem auf 

30 den zuerst verwendeten Soloartikulatlonsbereich folgenden Koartikulationst)ereich des 
zeitlich nachgelagerten Audiosegments endet, 

- wobei die Dauer und Lage der zu verwendenden Bereiche in Abhangigkeit der Audio- 
segmente bestimmt wird, und 

- die verwendeten Bereiche der Audiosegmente koartikulationsgerecht konkateniert wer- 
35 den, indem der Moment der Konkatenation in Abhangigkeit von Eigenschaften des ver- 
wendeten Bereiches des zeitlich nachgelagerten Audiosegments in einem Bereich festge- 
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legt wird, der unmittelbar vor dem zu verwendenden Bereich des zeitlich nachgelagerten 
Audiosegments beginnt und mit diesem endet. 

48. Synthetisierte Sprachsignale nach Anspruch 47, dadurch gekennzeichnet, da(3 die 
5 Sprachsignale erzeugt werden, indem 

- die Audiosegmente zu einem Moment konkateniert werden, der in der Umgebung der 
Grenzen des zuerst auftretenden Soloartikulationsbereichs des verwendeten Bereiches 
des zeitlich nachgelagerten Audiosegmentes liegt, wenn der Anfang dieses Bereiches 
einen statischen Laut bzw, ein statisches Phon wiedergibt , wobei ein statisches Phon ein 

10 Vokal, ein Diphtong, ein Liquid, ein Frikativ, ein Vibrant Oder ein Nasal ist, und 

- ein zeitlich hinterer Bereich des verwendeten Bereiches des zeitlich vorgelagerten Au- 
diosegments und ein zeitlich vorderer Bereich des verwendeten Bereiches des zeitlich 
nachgelagerten Audiosegments mit geeigneten Ubergangsfunktionen bearbeitet und bei- 
de Bereiche uberlappend addiert werden (Crossfade), wobei die Ubergangsfunktionen 

15 und die Lange eines Uberlappungsbereichs beiden Bereiche in Abhangigkeit der zu kon- 
katenierenden Audiosegmente bestimmt werden. 

49. Synthetisierte Sprachsignale nach Anspruch 47 oder 48, dadurch gekennzeichnet, da(5 
die Sprachsignale erzeugt werden, indem 

20 - die Audiosegmente zu einem Moment konkateniert werden, der zeitlich unmittelbar vor 
dem verwendeten Bereich des zeitlich nachgelagerten Audiosegmentes liegt, wenn der 
Anfang dieses Bereiches einen dynamischen Laut bzw. ein dynamisches Phon wiedergibt, 
wobei ein dynamisches Phon ein Plosiv, ein Affrikat, ein Glottalstop oder ein geschlagener 
Laut ist, und 

25 - ein zeitlich hinterer Bereich des verwendeten Bereiches des zeitlich vorgelagerten Au- 
diosegments und ein zeitlich vorderer Bereich des verwendeten Bereiches des zeitlich 
nachgelagerten Audiosegments mit geeigneten Ubergangsfunktionen bearbeitet werden 
und nicht uberlappend verbunden werden (Hardfade) wobei die Ubergangsfunktionen in 
Abhangigkeit der zu konkatenierenden Audiosegmente bestimmt werden. 

30 

50. Synthetisierte Sprachsignale nach einem der Anspriiche 47 bis 49, dadurch gekenn- 
zeichnet, daB 

- der erste Laut bzw. das erste Phon oder ein Teil der ersten Lautfolge bzw. des ersten 
Polyphons in der Folge durch ein Audiosegment erzeugt wird, dessen verwendeter Be- 

35 reich am Anfang die Eigenschaften des Anfangs der Folge wiedergibt. 
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51. Synthetisierte Sprachsignale nach einem der Anspruche 47 bis 50, dadurch gekenn- 
zeichnet, daB 

- der letzte Laut bzw. das letzte Phon oder ein Teil der letzten Lautfolge bzw. des letzten 
Polyphon in der Folge durch ein Audiosegment erzeugt wird, dessen verwendeter Bereich 

5 am Ende die Eigenschaften des Endes der Folge wiedergibt. 

52. Synthetisierte Sprachsignale nach einem der Anspruche 47 bis 51,. dadurch gekenn- 
zeichnet, daB 

- die Sprachsignale erzeugt werden, indem nachgelagerte mit der Wiedergabe eines dy- 
10 namischen Lautes bzw, Phons beginnenden Bereiche von Audlosegmenten mit vorgela- 

gerten mit der Wiedergabe eines statischen Lautes bzw. Phons beginnende Bereichen von 
Audlosegmenten konkateniert werden. 

53. Synthetisierte Sprachsignale nach einem der Anspruche 47 bis 52, dadurch gekenn- 
15 zeichnet, daB 

- die Audiosegmentbereiche ausgewahit werden, die die melsten Telle von Lauten bzw. 
Phonen der Folge wiedergeben, um bei der Erzeugung der Sprachsignale die minimale 
Anzahl von Audiosegmentbereichen zu verwenden. 

20 54. Synthetisierte Sprachsignale nach einem der Anspruche 47 bis 53, dadurch gekenn- 
zeichnet, daB 

- die Sprachsignale durch Konkatenation der verwendeten Bereiche von Audlosegmenten 
erzeugt werden, die mit Hilfe geeigneter Funktionen in Abhangigkeit von Eigenschaften 
der Lautfolge bzw. Phonfolge bearbeitet werden, wobei die Funktionen u.a. eine Verande- 

25 rung der Frequenz, der Dauer, der Amplitude oder des Spektrums betreffen konnen. 

55. Synthetisierte Sprachsignale einem der Anspruche 47 bis 54, dadurch gekennzeichnet, 
daB 

- die Sprachsignale durch Konkatenation der verwendeten Bereiche von Audlosegmenten 
30 erzeugt werden, die mit Hilfe geeigneter Funktionen in Abhangigkeit von Eigenschaften 

der Lautfolge bzw. Phonfolge in einem Bereich bearbeitet werden, in dem der Moment der 
Konkatenation liegt, wobei die Funktionen u.a. eine Veranderung der Frequenz, der Dau- 
er, der Amplitude oder des Spektrums betreffen konnen. 

35 56. Synthetisierte Sprachsignale einem der Anspruche 47 bis 55, dadurch gekennzeichnet, 
daB der Moment der Konkatenation bei einer Stelle in den verwendeten Bereichen des 
vorgelagerten und/oder des nachgelagerten Audiosegmentes liegt, an denen die beiden 
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verwendeten Bereiche hinsichtlich einer oder mehrerer geeigneter Eigenschaften uberein- 
stimmen, wobei diese Eigenschaften u.a. Nullstellen, Amplitudenwerte, Steigungen, Ab- 
leitungen beliebigen Grades, Spektren, Tonhohen, Amplitudenwerte in einem Frequenz- 
bereich, Lautstarke, Sprachstil, Sprachemotion, oder andere im Lautklassifizierungs- 
5 schema betrachtete Eigenschaften sein konnen. 

57. Synthetisierte Sprachsignale nach einem der Anspruche 47 bis 56, dadurch gekenn- 
zeichnet, daS die Sprachsignale geeignet sind, in akustische Signale umgewandelt zu 
werden. 

10 

58. Akustischer, optischer, magnetischer oder elektrischer Datenspeicher, der Audioseg- 
mente enthalt, um durch eine Konkatenation von verwendeten Bereichen der Audioseg- 
mente unter Verwendung des Verfahrens nach Anspruch 1 oder der Vorrichtung nach 
Anspruch 15 oder des Datentragers nach Anspruch 33 synthetisierte akustische Daten zu 

15 erzeugen. 

59. Datenspeicher nach Anspruch 58, dadurch gekennzeichnet, da3 eine Gruppe der Au- 
diosegmente Laute bzw. Phone oder Teile von Lauten bzw. Phonen wiedergeben. 

20 60. Datenspeicher nach Anspruch 58 oder 59, dadurch gekennzeichnet, daB eine Gruppe 
der Audiosegmente Lautfolgen oder Teile von Lautfolgen bzw. Polyphone oder Teile von 
Polyphonen wiedergeben. 

61. Datenspeicher nach einem der Anspruche 58 bis 60, dadurch gekennzeichnet, daB 
25 eine Gruppe von Audiosegmenten zur VerFugung gestellt wird, deren verwendete Berei- 
che mit einem statischen Laut bzw. Phon beginnen, wobei die statischen Phone Vokale, 
Diphtonge, Liquide, Frikative, Vibranten und Nasale umfassen. 

62. Datenspeicher nach einem der Anspruche 58 bis 61, dadurch gekennzeichnet, daB 
30 Audiosegmente zur Verfugung gestellt werden, die geeignet sind in akustische Signale 

umgewandelt zu werden. 

63. Datenspeicher nach einem der Anspruche 58 bis 62, der zusatzlich Informationen 
enthalt, um eine Bearbeitung der verwendeten Bereiche einzelner Audiosegmente mit 

35 Hilfe geeigneter Funktionen in Abhangigkeit von Eigenschaften der zu synthetisierenden 
akustischen Daten durchzufuhren, wobei die Funktionen u.a. eine Veranderung der Fre- 
quenz, der Dauer, der Amplitude oder des Spektrums betreffen konnen. 
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64. Datenspeicher nach einem der Anspruche 58 bis 63, der zusatzlich Informationen 
enthalt, die eine Bearbeitung der verwendeten Bereiche einzelner Audiosegmente und mit 
Hilfe geeigneter Funktionen in einem Bereich betreffen, in dem der Moment der Konka- 

5 tenation liegt, wobei die Funktionen u.a. eine Veranderung der Frequenz, der Dauer, der 
Amplitude oder des Spektrums betreffen konnen. 

65. Datenspeicher nach einem der Anspruche 58 bis 64, der zusatzlich verkettete Audio- 
segmente zur Verfugung stellt, deren Moment der Konkatenation be! einer Stelle der ver- 

10 wendeten Bereiche des zeitlich vorgelagerten und/oder des zeitlich nachgelagerten Audio- 
segmentes liegt, an denen die beiden verwendeten Bereiche hinsichtiich einer oder meh- 
rerer geeigneter Eigenschaften Cibereinstimmen, wobei die Eigenschaften u.a. Nullstellen, 
Amptitudenwerte, Steigungen, Ableitungen beliebigen Grades, Spektren, Tonhohen, Am- 
plitudenwerte in einem Frequenzbereich, i^utstarke, Sprachstil, Sprachemotion, oder 

15 andere im Lautklassifizierungsschema betrachtete Eigenschaften sein konnen. 

66, Datenspeicher nach einem der Anspruche 58 bis 65, der zusatzlich Informationen in 
Form von heuristischem Wissen enthalt, die die Auswahl der verwendeten Bereiche der 
einzelnen Audiosegmente, deren Bearbeitung, deren Variation sowie deren Konkatenation 

20 betreffen. 

67, Tontrager, der Daten enthalt, die zumindest teilweise synthetisierte akustische Oaten 
sind, die 

- mit dem Verfahren nach Anspruch 1, oder 
25 - mit der Vorrichtung nach Anspruch 16, oder 

- unter Verwendung des Datentragers nach Anspruch 33 , oder 

- unter Verwendung des Datenspeichers nach Anspruch 58 erzeugt wurden, oder 

- die Sprachsignale nach Anspruch 47 sind. 

30 68. Tontrager nach Anspruch 67, dadurch gekennzeichnet, daB die synthetisierten akusti- 
schen Daten synthetisierte Sprachdaten sind. 
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generating synthesised acoustic data using the 
method as per Claim 1, the device as per Claim 16 
or the data carrier as per Claim 33. 

Since this does not define any features of the 
audio segments in the claim itself (PCT Rule 
6.3(a)), the claim is not clear (PCT Article 6; see 
also PCT Examination Guidelines, Chapter III-4.7). 
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Citations and explanations 

1. The present application concerns speech synthesis, 
in particular data-based systems in which a neat 
concatenation of the individual speech pattern 
elements in the memory has proven critical to the 
synthesis quality attained. 



The closest prior art is disclosed in document '"A 
TtS system for the Greek language based on the 
concatenation of formant coded segments", Yourgalis 
et al.. Speech Communication 19(1996), pages 21-38. 
That document shows that the coarticulation effect 
can be allowed for by corresponding simulation 
calculations and that other concatenation modes can 
be used, depending on phoneme type, which in their 
respective classes can yield better results than the 
other methods available for selection. 



The technical problem addressed by the present 
application is that of finding an alternative to the 
approaches proposed in the closest prior art. 

For that purpose, an entirely data-based approach is 
used to tackle the coarticulation problem. The 
section to be used of the audio segment that comes 
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later in time (and which is to be attached after the 
former result) ends with the coarticulation section 
of this later audio segment that follows the solo 
articulation section that was first used. 



Furthermore, the moment (in time) and not the mode 
of concatenation is determined in the present 
application as a function of the properties of 
adjacent sections, in a situation-dependent way. 

This is claimed in the independent method, device 
and program data carrier Claims 1, 16 and 33. 



The use of the steps listed in Claim 1 is therefore 
neither disclosed nor suggested by Dl. None of the 
remaining international search report citations 
contains any hints that would lead a person skilled 
in the art to replace the prior art in Dl by the 
features of Claim 1. 



Claim 1 is therefore novel and involves an inventive 
step (PCT Article 33(2) and (3)). 



This also applies to independent device Claim 16 and 
independent program data carrier Claim 33, as well 
as to independent product Claim 47 and independent 
product data carrier Claim 67, insofar as these do 
not refer back to the unclear Claim 58. Furthermore, 
this also applies to dependent Claims 2-15, 17-32, 
34-46, 48-57 and 68 (insofar as Claim 67 does not 
refer back to Claim 58), which refer to these 
independent claims without creating any 
contradiction with the independent claims to which 
they refer. 
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VII. Certain defects in the international application 



The following defects in the form or contents of the international application have been noted: 



Contrary to PCT Rule 5.1(a) (ii), the description 
does not cite document Dl and does not indicate the 
relevant prior art disclosed therein. 
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VIII. Certain observations on the international application 

rhe following observations on the clarity of the claims, description, and drawings or on the question whether the claims are fully 
supported by the description, are made: 

1. At least one word is missing in the description, 
page 9, in the sentence that extends from line 32 to 
line 37. This makes the sentence incomprehensible. 
The Examiner assumes that the word ''determined" in 
line 37 should have been replaced by "is 
determined" . 

2. There is discrepancy between page 10, lines 21-30 
and page 12, lines 14-20 on the one hand, and page 
17, lines 24-30 and page 18, lines 25-34 on the 
other hand. In the former passages, audio segment 
sections which begin with the reproduction of a 
dynamic sound are preferred, while in the latter 
passages exactly the opposite is preferred, that is 
those beginning with a static sound. The reader 
cannot know in which of the two cases the advantage 
of a reduced outlay (which is mentioned in the two 
cases) is actually obtained. This lack of clarity 
should be eliminated. 

3. The claim numbers used in the description do not 
match the actual claim numbers. 
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Claims 

1. A method for the co-articulation-specific concatenation 

5 of audio segments, in order to generate synthesised acoustical 

data which reproduces a sequence of concatenated sounds/ 
phones, comprising the following steps: 

- selection of at least two audio segments which contain 
bands, each of which reproducing a portion of a sound/phone or 

10 a portion of a sound/phone sequence, 

characterised by the steps of: 

- establishing a band to be used of an earlier audio segment; 

- establishing a band to be used of a later audio segment, 
which begins immediately before the band to be used of the 

15 later audio segment and ends with the co-articulation band of 

the later audio segment which follows the initially used solo 
articulation band; 

- with the duration and position of the bands to be used being 
determined as a function of the earlier and later audio seg- 

2 0 ments ; and 

- concatenating the established band of the earlier audio seg- 
ment with the established band of the later audio segment, in 
that the instance of concatenation, as a function of proper- 
ties of the used band of the later audio segment, is set in 

25 its established band. 

2. The method according to Claim 1, characterised in that 

- the instance of concatenation is set in a band which lies in 
the vicinity of the boundaries of the initially to be used 

30 solo articulation band of the later audio segment, if the band 

of same to be used reproduces a static sound/phone at the be- 
ginning; and 

- a downstream portion of the band to be used of the earlier 
audio segment and an upstream portion of the band to be used 

35 of the later audio segment are processed by means of suitable 
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transfer functions and added in an overlapping manner (cross 
fade) , with the transfer functions and the length of an over- 
lapping portion of the two bands being determined depending on 
the audio segments to be concatenated. 

5 

3. The method according to Claim 1, characterised in that 

- the instance of concatenation is set in a band which lies 
immediately before the band to be used of the later audio 
segment, if the used band of same reproduces a dynamic sound/ 

10 phone at the beginning; and 

- a downstream portion of the band to be used of the earlier 
audio segment and an upstream portion of the band to be used 
of the later audio segment are processed by means of suitable 
transfer functions and joined in a non- over lapping manner 

15 (hard fade) , with the transfer functions being determined 

depending on the acoustical data to be synthesised. 

4. The method according to one of Claims 1 to 3 , character- 
ised in that for a sound/phone or a portion of the sequence of 

2 0 concatenated sounds/phones at the start of the concatenated 

sound/phone sequence a band of an audio segment is selected so 
that the start of the band reproduces the properties of the 
start of the concatenated sound/phone sequence. 

2 5 5. The method according to one of Claims 1 to 4 , character- 

ised in that for a sound/phone or a portion of the sequence of 
concatenated sounds/phones at the end of the concatenated 
sound/phone sequence a band of an audio segment is selected so 
that the end of the band reproduces the properties of the end 

3 0 of the concatenated sound/phone sequence. 

6. The method according to one of Claims 1 to 5, character- 
ised in that the voice data to the synthesised is combined in 
groups, each of which being described by an individual audio 
3 5 segment . 



7. The method according to one of Claims 1 to 6, character- 
ised in that an audio segment is selected for the later audio 
segment band, which reproduces the highest number of success- 
ive portions of the sounds/phones of the sound/phone sequence, 
in order to use the smallest number of audio segment bands in 
the generation of the synthesised acoustical data. 

8. The method according to one of Claims 1 to 7 , character- 
ised in that a processing of the used bands of individual 
audio segments is carried out by means of suitable functions 
depending on properties of the concatenated sound/phone se- 
quence, with these properties involving i.a. a modification of 
the frequency, the duration, the amplitude, or the spectrum. 

9. The method according to one of Claims 1 to 8 , character- 
ised in that a processing of the used bands of individual 
audio segments is carried out by means of suitable- functions 
in a band, in which the instance of concatenation lies. This 
can include i.a. a modification of the frequency, the dura- 
tion, the amplitude, or the spectrum. 

10. The method according to one of Claims 1 to 9 , character- 
ised in that the instance of concatenation is set in places of 
the bands to be used of the earlier and/or later audio seg- 
ment, in which the two used bands are in agreement with re- 
spect to one or several suitable properties, with these pro- 
perties including i.a.: zero point, amplitude value, gradient, 
derivative of any degree, spectrum, tone level, amplitude 
value in a frequency band, volume, style of speech, emotion of 
speech, or other properties covered in the phone classifica- 
tion scheme. 

11. The method according to one of Claims 1 to 10, character- 
ised in that 
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- the selection of the used bands of individual - audio seg- 
ments, their processing, their variation, as well as their 
concatenation are additionally carried out with the applica- 
tion of heuristic knowledge which is obtained by an addition- 

5 ally carried out heuristic method. 

12. The method according to one of Claims 1 to 11, character- 
ised in that 

- the acoustical data to be synthesised is voice data, and the 
10 sounds are phones; 

- the static phones include vowels, diphtongs, liquids, 
vibrants, fricatives and nasals; and 

- the dynamic phones include plosives, affricates, glottal 
stops, and click sounds. 

13. The method according to one of Claims 1 to 12, character- 
ised in that 

- a conversion of the synthesised acoustical data to acous- 
tical signals and/or voice signals is carried out. 

20 

14. A device for the co-articulation- specif ic concatenation 
of audio segments, in order to generate synthesised acoustical 
data which reproduces a sequence of phones, comprising: 

- a database in which audio segments are stored, each of which 
2 5 reproducing portion of a phone or portions of a sequence of 

(concatenated) phones ; 

- and/or any upstream synthesis means . (not part of this inven- 
tion) which supplies audio segments; 

- a means for the selection of at least two audio segments 
30 from the database and/or the upstream synthesis means; and 

- a means for the concatenation of audio segments, character- 
ised in that the concatenation means is suited for 

- defining a band to be used of an earlier audio segment; 

- defining a portion to be used of a later audio segment in a 
35 band which starts with the later audio segment and ends after 
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a co-articulation band of the later audio segment, which 
follows after the initially used solo articulation band; 

- determining the duration and position of the used bands de- 
pending on the earlier and later audio segments; and 

5 - concatenating the used band of the earlier audio segment 

with the used band of the later audio segment by defining the 
instance of concatenation as a function of properties of the 
used band of the later audio segment in a band which starts 
immediately before the used band of the later audio segment 
10 and ends with the co-articulation band which follows after the 

initially used solo articulation band after of the later audio 
segment . 

15. The device according to Claim 14, characterised in that 
15 the concatenation means comprises: 

- means for the concatenation of the used band of the earlier 
audio segment with the used band of the later audio segment, 
whose used band reproduces a static phone at the beginning in 
the vicinity of the boundaries of the initially occurring solo 

20 articulation band of the used band of the later audio segment; 

- means for processing a downstream portion of the used band 
of the earlier audio segment and an upstream portion of the 
used band of the later audio segment by suitable transfer 
functions; and 

25 - means for the overlapping addition of the two bands in an 

overlapping portion (cross fade) , which depends on the audio 
segments to be concatenated, with the transfer functions and 
the length of an overlapping portion of the two bands being 
determined depending on the acoustical data to be synthesised. 

30 

16. The device according to Claim 14, characterised in that 
the concatenation means comprises: 

- means for the concatenation of the used band of the earlier 
audio segment with the used band of the later audio segment. 
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whose used band reproduces a dynamic phone at the beginning, 
immediately before the used band of the later audio segment; 

- means for processing a downstream portion of the used band 
of the earlier audio segment and an upstream portion of the 

5 used band of the later audio segment by suitable transfer 

functions, with the transfer functions being determined de- 
pending on the acoustical data to be synthesised; and 

- means for the non-overlapping joining of the two audio seg- 
ments . 

10 

17. The device according to one of Claims 14 to 16, charac- 
terised in that the database includes audio segments or the 
upstream synthesis means supplies audio segments which com- 
prise bands which at the start reproduce a phone or a portion 

15 of the concatenated phone sequence at the start of the conca- 

tenated phone sequence. 

18. The device according to one of Claims 14 to 17, charac- 
terised in that the database includes audio segments or the 

20 upstream synthesis means supplies audio segments which com- 

prise bands, whose ends reproduce a phone or a portion of the 
concatenated phone sequence at the end of the concatenated 
phone sequence . 

25 19. The device according to one of Claims 14 to 18, charac- 

terised in that the database includes a group of audio seg- 
ments or the upstream synthesis means supplies audio segments 
which comprise bands, whose starts each reproduce only a 
static phone. 

30 

20. The device according to one of Claims 14 to 19, charac- 
terised in that the concatenation means comprises: 

- means for the generation of further audio segments by con- 
catenation of audio segments, with the starts of the bands 

35 each reproducing a static phone, each with a band of a later 



audio segment whose used band reproduces a dynamic phone at 
the start, and 

- a means which supplies the further audio segments to the 
database or the selection means. 

21. The device according to one of Claims 14 to 20, charac- 
terised in that, in the selection of the audio segment bands 
from the database or the upstream synthesis means, the selec- 
tion means is suited to select the audio segments which re- 
produce the greatest number of successive portions of conca- 
tenated phones of the concatenated phone sequence. 

22. The device according to one of Claims 14 to 21, charac- 
terised in that the concatenation means comprises means for 
processing the used bands of individual audio segments with 
the aid of suitable functions, depending on properties of the 
concatenated phone sequence. Among others, this can be a modi- 
fication of the frequency, the duration, the amplitude, or the 
spectrum. 

23. The device according to one of Claims 14 to 22, charac- 
terised in that 

- the concatenation means comprises means for processing the 
used bands of individual audio segments with the aid of suit- 
able functions in a band including the instance of concatena- 
tion, with this function involving i.a. a modification of the 
frequency, the duration, the amplitude, or the spectrum. 

24. The device according to one of Claims 14 to 23, charac- 
terised in that 

- the concatenation means comprises means for the selection of 
the instance of concatenation in a place in the used bands of 
the earlier and/or the later audio segment, in which the two 
used bands are in agreement with respect to one or several 
suitable properties, with these properties including i.a.: 
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zero point, amplitude value, gradient, derivatives of any 
degree, spectrum, tone level, amplitude value in a frequency 
band, volume, style of speech, emotion of speech, or other 
properties covered in the phone classification scheme. 

5 

25. The device according to one of Claims 14 to 24, charac- 
terised in that 

- the selection means comprises means for the implementation 
of heuristic knowledge which relates to the selection of the 
10 used bands of the individual audio segments, their processing, 

their variation, as well as their concatenation. 

26. The device according to one of Claims 14 to 25, charac- 
terised in that 

15 - the database includes audio segments or the upstream syn- 

thesis means supplies audio segments which include bands, each 
of which reproducing at least a portion of a sound or phone, 
respectively, a sound or phone, respectively, portions of 
phone sequences or polyphones, respectively, or sound/phone 

20 sequences or polyphones, respectively, with a static sound 

corresponding to a static phone and comprising vowels, diph- 
tongs, liquids, vibrant s, fricatives, and nasals; and 
a dynamic sound corresponding to a dynamic phone and compris- 
ing plosives, affricates, glottal stops, and klick speech; and 

25 - the concatenation means is suitable to generate synthesised 

voice data by means of the concatenation of audio segments.. 

27. The device according to one of Claims 14 to 26, charac- 
terised in that 

3 0 - means are provided for the conversion of the synthesised 

acoustical data to acoustical signals and/or voice signals. 
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28. Synthesised voice signals which consist of a sequence of 
sounds or phones, respectively, with the voice signals being 
generated in that : 
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- at least two audio segments are selected which reproduce the 
sounds or phones, respectively; and 

- the audio segments are linked by a co-articulation-specific 
concatenation, with 

5 - a band to be used of an earlier audio segment being estab- 

lished; 

- a band to be used of a later audio segment being established 
which starts immediately before the band to be used of the 
later audio segment and ends with the co-articulation band of 

10 the later audio segment, following the initially used solo 

articulation band; 

- with the duration and position of the bands to be used being 
determined depending on the audio segments; and 

- the used bands of the audio segments being concatenated in a 
15 co-articulation-specific manner, in that the instance of con- 
catenation, as a function of properties of the used band of 
the later audio segment, is set in its established band. 

29. The synthesised voice signals according to Claim 28, 
2 0 characterised in that the voice signals are generated in that 

- the audio segments are concatenated in an instance which 
lies in the vicinity of the boundaries of the initially 
occurring solo articulation band of the used band of the later 
audio segment, if the start of this band reproduces a static 

25 sound or a static phone, respectively, with the static phone 

being a vowel, a diphtong, a liquid, a fricative, a vibrant, 
or a nasal ; and 

- a downstream portion of the used band of the earlier audio 
segment and an upstream portion of the used band of the later 

30 audio segment are processed by means of suitable transfer 

function and both bands are added in an overlapping manner 
(cross fade) , with the transfer functions and the length of an 
overlapping portion of the two bands being determined depend- 
ing on the audio segments to be concatenated. 
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30. The synthesised voice signals according to Claim 28, 
characterised in that the voice signals are generated in that 

- the audio segments are concatenated in an instance which 
lies immediately before the used band of the later audio 
segment, if the start of this band reproduces a dynamic sound 
or phone, respectively, with the dynamic phone being a plos- 
ive, an affricate, a glottal stop, or klick speech; and 

- a downstream portion of the used band of the earlier audio 
segment and an upstream portion of the used band of the' later 
audio segment are processed by means of suitable transfer 
functions and both bands are joined in a non- over lapping 
manner (hard fade) , with the transfer functions being determ- 
ined depending on the audio segments to be concatenated. 

31. The synthesised voice signals according to one of Claims 
28 to 30, characterised in that 

- the first sound or the first phone, respectively, or a por- 
tion of the first phone sequence or of the first polyphone, 
respectively, in the sequence is generated by an audio seg- 
ment, whose used band at the start reproduces the properties 
of the start of the sequence. 

32. The synthesised voice signals according to one of Claims 
28 to 30, characterised in that 

- the last sound or the last phone, respectively, or a portion 
of the last phone sequence or of the last polyphone, respect- 
ively, in the sequence is generated by an audio segment, whose 
used band at the end reproduces the properties of the end of 
the sequence . 

33. The synthesised voice signals according to one of Claims 
28 to 32, characterised in that 

- the voice signals are generated in that later bands of audio 
segments, beginning with the reproduction of a dynamic sound 
or phone, respectively, are concatenated with earlier bands of 



